新增比較實驗

此次DAS研討會回覆的寶貴意見, 均指向實驗的比較, 評論簡述如下:
1.if their would have been at least some proper citation and elaboration on existing work and if there was some reason why their work was not compared with the existing ones, it should have explained in the paper.
2.If one had simply used the keywords provided by authors (or terms in titles when that’s not available). If so then including that comparison in the experiments would greatly help motivating the approach.
3.The authors should compare the proposed method with some existing methods quantitatively.
和本論文具有相同目的之研究, 在現有的文獻中較難發現, 然而一般作者通常會將自己的重要技術名詞描述成關鍵字, 因此本研究針對focused term recognition實驗部分, 新增keyword-based方法的比較.
Keyword-based 方法主要可以分為以下兩種:
(1) 將文章中的關鍵字視為focused technical term.
(2) Hulth所提出自動擷取關鍵字方法.

Automatic Identification of Pro and Con Reason in Online Reviews

2005-05-19
Automatic Identification of Pro and Con Reason in Online Reviews 這篇論文主要出自於COLING' 06, 其目的是將線上評價中的語句辨識出是否有含主觀意見, 進而將含主觀意見的句子分成pros 和 cons 兩個類別.

因此, 給定一句review中的sentence, 系統架構主要可以分為兩個階對進行, 分別為subjectivity identification and polarity classification phases:
--subjectivity identification 將關於具有主觀意見的句子辨識出來.
--polarity classification 將主觀意見的句子進行分類.
subjectivity identification和polarity classification均採用supervised machine learning algorithm (Maximum Entropy), 類別主要分為三種 (Neither, Pro and Con), neither類別可視為客觀的類別(即一般的事實描述), 其內容不屬於pros and cons. 而maximum entropy所使用的feature可分為三個categories:
1. Lexical (uni-gram, bi-gram and tri-gram)
2. Position (該sentence是否出現在review中的首兩句或末兩句)
3. Opinion-bearing words (是先選定好的情緒字集)

此外, 為了簡化標準答案的標註, 本論文提出了一套自動標註系統, 主要係透過目前評論網站含有特定的field來描述pro和con. 因此作者假設, user在撰寫評論的時亦會使用相同的字詞(包含在pro's和con's feild) 來描述他對於該產品的優缺點, 藉由此特定, 來建立所需的training data.

實驗部份: 透過epinions.com(含有pro and con field)來建立訓練資料, 並且將建立好的model除了應用在此網站之外, 同樣也在Compliant.com上進行實驗, 最後實驗結果顯示, 平均precision 可達66%, recall 可達到76%.

利用目前些評論網站均含有描述pro和con的欄位. 假設user撰寫的pro's and con's所使用的字詞, 也會出現在撰寫整體評論中來描述他對於該產品的優缺點, 我們即可以pro's and con's的資料做為參考答案, 藉由此來建立所需的training data.

附上此論文投影片:

Automatic labelling Pros and Cons Problem

2008-05-25
將Epinions網頁中的review抓回來之後,已將pros, cons, and full review分別地擷取出來,當正要進行由Kim所提出來的automatic labeling method時, 遇到一個重大的問題:
文中提出利用pros and cons中的phrase 去比對full review中的sentence, 將它標示為pros, cons, or neutral.
然而, 由人工比對方式實際地去分析, 結果顯示pros's (or cons's)中的phrase和full review 中的sentence重疊的機率少之又少. 因此目前想到採取的解決方法如下:
1. 不利用phrase為單位, 改由單一term為單位, 和full review 進行比對的動作.
2. 也是由單一term 為單位,僅選擇 noun and adjective.

How to obtain training data for sentiment classification?

2008-05-14
學生最近看了篇論文 Automatic Identification of Pro and Con Reasons in Online Reviews, COLING, 2006. 其中最讓學生感興趣的就是作者利用現有網站(Epinions.com and Complaints)既有的資訊來產生正反意見的訓練資料, 其方法主要是透過網頁中既有的欄位資訊(Pros and Cons), 所描述的字詞來和全文筆對的方法來自動標註pros and cons的語句.
學生survey目前有提供pros and cons的網站, 以及適合用來testing的網站(僅含意見並沒有區分pros and cons), 如下:
For training:
Yahoo shopping: http://shopping.yahoo.com/
Epinions: http://www.epinions.com/
AllAboutReview: http://alatest.com/
CNet: http://reviews.cnet.com/
ViewPoints: http://www.viewpoints.com/
AlaTest: http://alatest.com/
For testing:
Rateitall: http://www.rateitall.com/
Complaints: http://www.complaints.com/
MeasureUp: http://www.measuredup.com/

學生目前以Epnions網站為主, 蒐集約10個主題,來產生training data, 之後預計以RateitAll網站資料來進行testing.

The progress report of SOCA

2008-04-29
論文: 已將sentiment classification的related work加入至論文中.

程式: 蒐集google 廣告的平台已初步完成.

研究方法: 以下係針對sentiment classfication的方法:
(1) HMM method
(2) SVM 所採用的feature 分別有:
a. Words, Bigrams, and Trigrams
b. Words, Bigrams, and Trigrams with POS.
c. Opinion bearing words (pre-selected opinion bearing words)
d. Words belong to Adjective, Adverb, Noun, or Verb.
(3) Scorng function
a. the product of the sing of each words.
b. the summation of the socre of each words.