Thinking approach for term clustering & term classification

2007/06/04
今天主要構思了一下如何將找出來的technical term做clustering 或classification的處理, 稍微尋找了一些相關資料, 目前想到term clustering (classification)的作法比較偏向於web mining的方式:
Term clustering:
1. Feature Extraction
利用technical term當作是query term submit 至搜尋引擎, 利用NLP工具剖析回傳的top-k網頁, 進而得到和technical term的相關字詞, 將此相關字詞視為feature.
2. Term Vector
將每一個technical term建立一個vector.
3. Using Auto-Class for clustering.

Term categorization:
1. Feature Extraction
針對事先定義好的technical term category (ex. Machine learning) 以及每一個technical term透過下列方式取得feature:
將term submit 至搜尋引擎, 利用NLP工具剖析回傳的top-k網頁, 進而得到和technical term的相關字詞, 將此相關字詞視為feature.
2. Term Vector
將每一個technical term建立一個vector.
3. Term Similarity
將每一個term的vector和technical term category做相似度的計算, 以判斷該term屬於哪個類別. TF *IDF-based Cosine measurement

1 comment:

Anonymous said...

Please refer to
http://wkd.iis.sinica.edu.tw/~whlu/wh-publication.htm