如何建語料庫 如何建立自己的語料庫?

2021-10-13 08:39:36 字數 741 閱讀 9929

謝邀。按照語料的語種,語料庫可以分成單語語料庫、雙語語料庫和多語語料庫。

單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫;語料為兩種語言的則稱為雙語語料庫(若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫);三種及三種以上的為多語語料庫(若乙個原文文字有多個版本的譯文文字,亦可做成一對多語料庫)。

不知道您說的是哪一種語料庫,在此分別說一下這三種語料庫的建庫方法。

一、建立單語語料庫

建立單語語料庫只需將您收集到的單語材料集中儲存在txt文字文件中即可,您可以使用單語語料庫分析研究工具antconc(免費,可以直接在官網

二、建立雙語平行語料庫

三、建立一對多語料庫

如果需要建立中文文字對應不同語種譯本的一對多語料庫,可將每個語種的譯本分別與中文文字進行對齊(具體方法參見

二、建立雙語平行語料庫)匯出為excel格式的文件,並將excel文件中的中文文字和每個英文譯本分別複製貼上到txt文件中,即可在中國傳媒大學平行語料檢索工具cuc_paraconc(免費)中進行檢索和研究。

如果需要建立中文文字對應多個英文譯本的一對多語料庫用於對比不同的英文翻譯,可先將每個英文譯本分別與中文文字進行對齊(具體方法參見

二、建立雙語平行語料庫)匯出為excel格式的文件,並將excel文件中的中文文字和每個英文譯本分別複製貼上到txt文件中,即可在中國傳媒大學平行語料檢索工具cuc_paraconc中進行檢索和研究。

希望能夠幫到你呀~

如何建語料庫 如何建立自己的語料庫?

不知道題主具體問的是什麼考試的語料庫,我從自己考托福的角度出發,說說托福寫作語料庫的建立吧。一 為什麼要建立自己的語料庫?英語寫作雖然不要求像高考作文那樣寫800到1000字,但是對字數都還是有一定的要求的。要擺脫小學生作文,流水賬的作文,就必須給自己建立語料庫。要麼,是給了你論點然後加上簡單的例子...

基於語料庫的工作

基於語料庫的工作 2013年11 月20日 21 28 詞幹化 諸如 sit,sits sat 這樣的詞是否應該被視作相同的詞?一般認為,這個想法在語義學上是有意義的。一般把這個過程成為詞幹化 ps 是否應該注意到 seated 和sit 之間的不強的關聯性呢?station 和stationary...

自然語言處理中語料庫的理解

語料庫中存放的是在語言實際使用中真實出現過的語言材料 語料庫是以電子計算機為載體承載語言知識的基礎資源 真實語料需要經過加工 分析和處理 才能成為有用的資源。語料庫 corpus,複數corpora 指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究 確定...