Data Pre-processing

2007/02/09
Data Pre-processing
1.在網路上找尋可將pdf檔案轉換text格式的執行程式(pdftotext.exe), 並撰寫小程式, 將原始資料集(pdf檔)做轉檔的動作.
2.找尋現有的斷句程式(sentence segmentation).
3.撰寫程式, 將資料集(text檔)做斷句的處理. (Java外部呼叫執行檔時, 最好將該執行檔的路徑設定在環境變數內)

No comments: