語料庫包含一定篇目(語篇),每篇篇目包含一定量的詞彙。
語種:單語種語料庫,多語種語料庫;
記載**:單**語料庫,多**語料庫;
地域:國家語料庫,國際語料庫;
以語料庫代表性和平衡性為主要區分依據的:平衡語料庫,平行語料庫;平衡性好壞取決於語料庫中語料的使用度是否可以真實反映語言使用情況。平行型表現為語料選取的時間、物件、比例、文字數、文字長度等幾乎一致(一般用於機器翻譯)。
以語料庫用途為主要區分依據的:通用語料庫,專用語料庫;(二者是相對的)
以語料分布時間為主要區分依據的:共時語料庫,歷時語料庫;
按照索緒爾的觀點,共時研究是研究大樹的橫斷面所見的細胞和細胞關係,即研究乙個共時平面中的元素與元素的關係,例如中國五地語料庫(大陸、香港、澳門、台灣、新加坡)。
按照索緒爾的觀點,歷時研究是研究大樹的縱剖面所見的每個細胞和細胞關係的演變,即研究乙個歷時切面中元素與元素關係的演化。
以語料庫內容加工程度劃分的:生語料與標註語料庫;
生語料是指沒有經過任何加工處理的原始語料資料。
標註語料庫是指經過加工處理、標註了特定資訊的語料庫。
乙個語料庫具有代表性是指在改了語料庫上獲得的分析結果可以概括成為這種語言整體或其指定部分的特性;
假設已知「打」有buy(~醬油,~飯)和knit(~毛衣,~圍巾)兩個意思,那麼如何知道「打手套」中的「打」是什麼意思呢?可以通過計算「手套」和「飯」、「毛衣」等詞的語義距離的計算結果進行判定。
讀《統計自然語言處理》 語料庫與知識詞彙庫
統計自然語言處理的主要需求包括計算機 語料庫和軟體。基礎知識 1 計算機 文字語料庫通常都比較大,處理大量的文字需要相當多的計算資源。在早期的處理中,這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料,而且經常需要從語料中收集大量的統計資訊,所以要求計算機有比較快的訪問速...
自然語言處理 nltk 語料庫
語料庫可以從wordnet內建語料庫匯入,也可以從外界匯入 內建語料庫列表可以在nltk官網查詢 from nltk.corpus import reuters 路透社語料庫查詢語料庫內容,可以呼叫物件的fileids 函式,該函式得到檔案及其相對路徑 files reuters.fileids p...
自然語言處理中語料庫的理解
語料庫中存放的是在語言實際使用中真實出現過的語言材料 語料庫是以電子計算機為載體承載語言知識的基礎資源 真實語料需要經過加工 分析和處理 才能成為有用的資源。語料庫 corpus,複數corpora 指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究 確定...