畢業設計day02

2021-06-28 20:29:40 字數 875 閱讀 5615

未完全理解,摸索中...

當語料庫預處理完畢後,才能進行翻譯。

3種物件:

- 語料庫:語料庫資訊須預處理後,被treetagger進行詞性標註

- 詞典檔案:詞典中單詞,編號並合併。

- 停用詞:

1種功能:

- 對新詞進行翻譯:

對獲取的詞語進行標註,更新詞語編號資訊;

在文件層面上,獲取所有的 word-count & word-context 資訊

合併語料庫資訊

在語料庫水平上,提取相關的 word-count & word-context 資訊,為後續的詞典提取做準備

工具:- treetagger :詞性標註器,對句子中的詞語進行詞性標註

- straberry perl:windows下的perl程式,可編譯字尾名為pl的指令碼檔案。

可比語料庫 新詞翻譯 系統:

1. 將從語料庫目錄中匯入的兩種語言的語料庫,分別進行預處理,

2. 將兩種語言的停用詞從語料庫中刪去,提高預處理效率。

3. 詞典檔案中,

語料庫相關資料:

1. 語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。

2. 可比語料庫(comparable corpus)是由具有某些相同屬性的文字構成,雙語可比語料庫是由具有某些相同屬性的文字構成,雙語可比語料庫是由某些具有相似性的兩種語言文字構成,比如,不同**同一天、同一主題的中文和英文新聞,其中中文和英文均為原文,雙語可比語料庫的兩種語言的文字,完全是不同撰稿人或記者用母語對事件的描述。可比語料庫不存在平行語料庫中譯文受原文限制的缺點,極有希望從雙語可比語料庫中提取真正對應的雙語詞對。

畢業設計!畢業設計!!畢業設計!!!

看到ceocio的帖子 嚇人哦 深有體會。進幾年有些本科學生的程式與 實在不象話。有的組的答辯問題簡直成了挑錯字,平均每頁都有錯字。有的組在資料庫設計時,姓名 身份證號 手機號 日期全部都用char 10 答辯時還振振有辭,說在做測試時僅僅輸入了些簡單的數字做測試,所以沒有發現問題!還有的學生 是這...

設計模式Day02

1 生成器模式 生成器模式也稱為建造者模式。生成器模式的意圖在於將乙個複雜的構建與其表示相分離,使得同樣的構建過程可以建立不同的表示。生成器模式的程式設計步驟 1 定義乙個產品類 由於不在該類完成product類物件的建立,所以無需顯示定義構造方法。2 定義n個生成器build類 生成器是用來生成p...

後台管理系統 畢業設計02

eladmin基於 spring boot 2.1.0 jpa spring security redis vue的前後端分離的後台管理系統,許可權控制的方式為rbac,專案支援資料字典與資料許可權管理,支援一鍵生成前後端 支援前端選單動態路由 角色管理 對許可權與選單進行分配,可根據部門設定角色的...