How to obtain training data for sentiment classification?

2008-05-14
學生最近看了篇論文 Automatic Identification of Pro and Con Reasons in Online Reviews, COLING, 2006. 其中最讓學生感興趣的就是作者利用現有網站(Epinions.com and Complaints)既有的資訊來產生正反意見的訓練資料, 其方法主要是透過網頁中既有的欄位資訊(Pros and Cons), 所描述的字詞來和全文筆對的方法來自動標註pros and cons的語句.
學生survey目前有提供pros and cons的網站, 以及適合用來testing的網站(僅含意見並沒有區分pros and cons), 如下:
For training:
Yahoo shopping: http://shopping.yahoo.com/
Epinions: http://www.epinions.com/
AllAboutReview: http://alatest.com/
CNet: http://reviews.cnet.com/
ViewPoints: http://www.viewpoints.com/
AlaTest: http://alatest.com/
For testing:
Rateitall: http://www.rateitall.com/
Complaints: http://www.complaints.com/
MeasureUp: http://www.measuredup.com/

學生目前以Epnions網站為主, 蒐集約10個主題,來產生training data, 之後預計以RateitAll網站資料來進行testing.

3 comments:

Jahui said...

你以學生自稱,相當於把所有看你部落格的人都當做是你的老師了,難免有些奇怪.近來各大企業紛紛以個人的部落格做為求才的參考依據,你可能要站在讀者的立場來考慮敍述的方式.

Anonymous said...

你好!!我是台灣大學資訊管理所-網際網路探索與先進學習實驗室的碩班學生。目前我的研究方向是網路顧客評論的意見探勘。由於希望能用epinions.com的評論作為訓練和測試資料,且從學長的部落格內容得知有相關的資料。請問學長是否願意提供epinions.com的評論資料或是crawler程式??

ps.由於查無學長e-mail,因此在此發問。希望學長看到能夠給予回應。e-mail: r96725044@ntu.edu.tw

ps.我目前有Amazon.com之數位相機及電影之評論資料,若學長有興趣可以跟我取之。

Anonymous said...

It isn't hard at all to start making money online in the underground world of [URL=http://www.www.blackhatmoneymaker.com]blackhat world[/URL], It's not a big surprise if you don't know what blackhat is. Blackhat marketing uses little-known or not-so-known methods to produce an income online.