畢業設計day05 2 語料庫預處理 思路

2021-06-28 23:53:26 字數 511 閱讀 1368

語料庫預處理_思路

載入語言x語料庫,進行預處理:將轉為stringbuilder串並儲存。

1. 讀取檔案lang

1-all

a) [\\s\\s]+?

依次處理每個文件。

b) [\\s\\s]*?

依次處理文字:

i. 刪除<>

資訊;

ii. 刪除回車換行;

iii. 刪除多餘空格;

iv. 處理特殊字元;

v. 新增結果資訊result: 

stringbuilde

r;vi. 加分割標誌:***yyyzzz.\n

。c) 儲存結果,寫出檔案:lang1-utf-8

2. 讀取檔案lang

2-all

a) [\\s\\s]+?

依次處理每個文件;

b) ([\\s\\s]*?)|([\\s\\s]*?) 依次處理文字:同上

c) 儲存結果,寫出檔案:lang2-utf-8

畢業設計!畢業設計!!畢業設計!!!

看到ceocio的帖子 嚇人哦 深有體會。進幾年有些本科學生的程式與 實在不象話。有的組的答辯問題簡直成了挑錯字,平均每頁都有錯字。有的組在資料庫設計時,姓名 身份證號 手機號 日期全部都用char 10 答辯時還振振有辭,說在做測試時僅僅輸入了些簡單的數字做測試,所以沒有發現問題!還有的學生 是這...

畢業設計day02

未完全理解,摸索中.當語料庫預處理完畢後,才能進行翻譯。3種物件 語料庫 語料庫資訊須預處理後,被treetagger進行詞性標註 詞典檔案 詞典中單詞,編號並合併。停用詞 1種功能 對新詞進行翻譯 對獲取的詞語進行標註,更新詞語編號資訊 在文件層面上,獲取所有的 word count word c...

製作畢業設計

1.本工作室有豐富的 asp 和 asp.net開發經驗,歡迎廣大2008屆畢業生朋友前來諮詢.2.注意 本工作室只做設計,不做 但是我會將設計的要點難點和設計思路用word寫出來,這樣保證畢業生朋友能明白我的設計思想.確保答辨過關,當然必要時可以指導畢業生進行 的寫作.3.定做乙個畢業設計的 一般...