語料庫預處理_思路
載入語言x語料庫,進行預處理:將轉為stringbuilder串並儲存。
1. 讀取檔案lang
1-all
a) [\\s\\s]+?
依次處理每個文件。
b) [\\s\\s]*?
依次處理文字:
i. 刪除<>
資訊;
ii. 刪除回車換行;
iii. 刪除多餘空格;
iv. 處理特殊字元;
v. 新增結果資訊result:
stringbuilde
r;vi. 加分割標誌:***yyyzzz.\n
。c) 儲存結果,寫出檔案:lang1-utf-8
2. 讀取檔案lang
2-all
a) [\\s\\s]+?
依次處理每個文件;
b) ([\\s\\s]*?)|([\\s\\s]*?) 依次處理文字:同上
c) 儲存結果,寫出檔案:lang2-utf-8
畢業設計!畢業設計!!畢業設計!!!
看到ceocio的帖子 嚇人哦 深有體會。進幾年有些本科學生的程式與 實在不象話。有的組的答辯問題簡直成了挑錯字,平均每頁都有錯字。有的組在資料庫設計時,姓名 身份證號 手機號 日期全部都用char 10 答辯時還振振有辭,說在做測試時僅僅輸入了些簡單的數字做測試,所以沒有發現問題!還有的學生 是這...
畢業設計day02
未完全理解,摸索中.當語料庫預處理完畢後,才能進行翻譯。3種物件 語料庫 語料庫資訊須預處理後,被treetagger進行詞性標註 詞典檔案 詞典中單詞,編號並合併。停用詞 1種功能 對新詞進行翻譯 對獲取的詞語進行標註,更新詞語編號資訊 在文件層面上,獲取所有的 word count word c...
製作畢業設計
1.本工作室有豐富的 asp 和 asp.net開發經驗,歡迎廣大2008屆畢業生朋友前來諮詢.2.注意 本工作室只做設計,不做 但是我會將設計的要點難點和設計思路用word寫出來,這樣保證畢業生朋友能明白我的設計思想.確保答辨過關,當然必要時可以指導畢業生進行 的寫作.3.定做乙個畢業設計的 一般...