2 NLP之語料庫

2021-10-10 05:52:56 字數 2011 閱讀 9696

語料庫:存放語言材料的倉庫。現代的語料庫是指存放在計算機裡的原始語料文字或經過加工後帶有語言學資訊標註的語料文字。

基本認識(三點):

語料庫樣例:

人們/n 將/d 銘 記/v 這/r 一/m 時刻/n :/w 1998年/t 1月/t 10日/t 11時/t 50分/t 。/w

詞性標註的符號:

語料庫的分類:

1、付費語料免費語料

2、專用語料庫通用語料庫

專用語料庫:為了某種專門的目的,只採集某一特定領域、特定地區、特定時間、特定語體型別的語料構成的語料庫,如, 新聞語料庫、科技語料庫

通用語料庫:抽樣時仔細從各個方面(如,領域分布、地域分布、時間分布)考慮了平衡問題的平衡語料庫,按照事先確定好的某種標準,把每個子類的文字按照一定比例收集到一起的語料庫

3、單語種語料庫雙語種(或多語種)語料庫

·單語語料庫:只含有單一語言文字的語料庫

多語語料庫:不只有一種語言的語料庫。多語語料庫又分為平行語料庫(庫中的兩種或多種文字互相是對方的譯文)和比較語料庫(庫中兩種或多種語言的文字不構成對譯關係,只是領域相同,主題相近)。

4、生語料庫熟語料庫

生語料庫:沒有經過任何加工處理的原始語料資料

熟語料庫:經過了加工處理、標註了特定資訊的語料庫。**語料庫標註(加工)**就是對電子語料(包括書面語和口語)進行不同層次的語言學分析,並新增相應的「顯性」的解釋性的語言學資訊過程; 把某種分類**插入到計算機檔案中,通過這些分類**,可以了解檔案的結構或格式資訊。

本報/r 訊/ng 河北省/ns 重點/n 建設/vn 專案/n 石家莊/ns 機場/n 跑道/n 延長/vn 工程/n ,/w 日前/t 通過/v 國家/n 驗收/vn 委員會 /n 審驗/v ,/w 正式/ad 投入/v 使用/v 。/w

歧義消解與語料庫加工的關係

高效能的歧義消解技術是實現語料庫加工自動化的關鍵。語料庫特別是經過加工的語料庫又為歧義消解提供了資源支援。

語料庫加工的三種主要方式

語料庫與語言知識庫

語料庫:以語言的真實材料為基礎來呈現語言知識,反映語言單位的用法和意義,基本以知識的原始形態表現——語言的原貌;

語言知識庫:由專家從大量的例項中提煉、抽象、概括出來的系統的語言知識,如電子詞典、句法規則庫、詞法分析規則庫等。

語料的收集與加工

語料庫的編碼,語料檔案的統一規範:1、tei計畫(text encoding initiative);2、ldc要求其提交的語料庫遵循sgml規範(standard generalized mark-up language);3、ces標準;等等。

雙語(平行)語料庫的對齊:段落對齊、句子對齊、詞對齊、短語對齊。雙語(平行)語料庫的句子對齊:原文句子 -> 譯文句子:確定源語言文字中哪個/些句子和目標語言文字中哪個/些句子互為譯文。雙語句子對齊的方法:1、基於長度(length-based)的對齊方法,純粹基於句子的長度來估計對齊可能性;演算法效率相對較高;2、基於詞(word-based)的對齊方法,一般要依賴詞典資源,演算法效率相對較低。

基於長度(length-based)的對齊方法

特點:end

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...

如何建語料庫 如何建立自己的語料庫?

謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...