2007/02/03
Reading a paper
這兩天趁著監考的空檔閱讀了一篇相關的paper (Linguistic and Statistical Approach to Basque Term Extraction), 此篇文章主要處理的語言為西班牙文. 和以往ATR文章相較之下, 此論文主要結合了linguistic 和statistical兩種方法, 來擷取字詞.
此文章主要先從分析語言結構(Structure of Basque Terms)著手, 進而考慮到字詞的變化(term variation: capitalization, inner hyphen insertion, inflectional, morphosyntatic, and syntatic), 最後則思索語意變化(Semantic variants).
在實驗的部份, 比較了許多的association measure的方法 (Mutual Information, log-likelihood ratio, t-score, Chi-square, Mutual Expectation, and Log-linear models), 除此之外, 在每個子實驗, 為了增強precision 和recall, 利用marginal frequency 來取代在corpus觀察到的frequency.
No comments:
Post a Comment