Term Classification

2007/06/11~2007/06/15
這個星期主要是實作term classification, 主要目前已完成的有:
1. 擷取關於該technical term的網頁. (透過google api)
2. 過濾網頁不相關的資訊. (透過JAVA既有的class)
3. 自然語言處理. (利用NLP 工具)
4. 擷取noun, adjective, verb (透過Regular expression)
5. 建立inversed table.
6. 指派tfidf value.
7. 計算與類別的cosine相似度.

正在進行的有:
1. 如何將大量的資料由網路抓回來, 需要一點時間.
2. 實際將與分析的資料匯入term classification system.
3. 視覺化最後結果, 以例分析說明.

1 comment:

Professor Howdy said...




Very good work!
Congratulations...