2023年7月20日13:47:51
:大資料之行,始於足下:談談語料庫知多少。
)大多數學者普遍認為:語言學的研究必須基於語言事實的基礎,必須詳盡的大量的占有材料,才有可能在理論上得出比較可靠的結論。
語料庫語言學:傳統語言材料的蒐集整理和加工完全以手工進行,費時費力,直到計算機出現並隨之計算能力強大之後,原先手工的工作開始轉向計算機去做,後來逐漸的方法完善中,提出一些初步的理論,形成了語料學這樣一門語言學與電腦科學交叉的學科。
語料庫語言學的研究範疇:主要研究機器可讀自然語言文字的採集、儲存、檢索、統計、語法標註、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞彙研究、詞語搭配研究、詞典編制、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解、機器翻譯等。
語料庫作為乙個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被電腦程式檢索的、具有一定規模的語料的集合。本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用的總體。
① 時間劃分:歷時語料庫和共時語料庫。
② 加工深度劃分:標註語料庫和非標註語料庫
③ 結構劃分:平衡結構語料庫和自然隨機結構語料庫
④ 表達形式劃分:口語語料庫和文字語料庫
⑤ 語種劃分:單語種語料庫和多語種語料庫(可比語料庫和平行語料庫)
⑥ 動態更新程度劃分:參考語料庫和監控語料庫
語料庫應該具有代表性、結構性、平衡性、規模需求並制定語料的元資料規範,各個原則具體介紹如下:
① 代表性:在應用領域中,不是根據量而劃分是否是語料庫,而是在一定的抽樣框架範圍內採集而來的,並且在特定的抽樣框架內做到代表性和普遍性。
② 結構性:有目的的收集語料的集合,必須以電子形式存在,計算機可讀的語料集合結構性體現在語料庫中語料記錄的**,元資料項、資料型別、資料寬度、取值範圍、完整性約束。
③ 平衡性:主要體現在平緩因子:學科、年代、文體、地域、登載語料的**、使用者的年齡、性別、文化背景、閱歷、預料用途(私信/廣告等),根據實際情況選擇其中乙個或者幾個重要的指標作為平衡因子,最常見的平衡因子有學科、年代、文體、地域等。
④ 規模性:大規模的語料對語言研究特別是對自然語言研究處理很有用的,但是隨著語料庫的增大,垃圾語料越來越多,語料達到一定規模以後,語料庫功能不能隨之增長,語料庫規模應根據實際情況而定。
⑤ 元資料:元資料對於研究語料庫有著重要的意義,我們可以通過元資料了解語料的時間、地域、作者、文字資訊等;還可以構建不同的子語料庫;除此外,還可以對不同的子語料對比;另外還可以記錄語料知識版權、加工資訊、管理資訊等。
注意:漢語詞與詞之間沒有空隙,不便於計算機處理,一般需要進行切詞和詞性標註。
① 優點: 研究方便。可重用、功能多樣性、分析清晰。
② 缺點: 語料不客觀(手工標註準確率高而一致性差,自動或者半自動標註一致性高而準確率差)、標註不一致、準確率低
總之,目前語料庫語言學主要研究機器可讀自然文字的採集、儲存、檢索、統計、自動切詞、詞性標註、語義標註等。
資料探勘概念與技術(364--386) 韓家煒
自然語言處理簡明教程 馮志偉 著
統計自然語言處理基礎 (166—169) 宛春法等譯
【自然語言處理:馬爾可夫模型(一)】:初識馬爾可夫和馬爾可夫鏈
【自然語言處理:馬爾可夫模型(二)】:馬爾可夫模型與隱馬爾可夫模型
【自然語言處理:馬爾可夫模型(三)】:向前演算法解決隱馬爾可夫模型似然度問題
【自然語言處理:馬爾可夫模型(四)】:維特比演算法解決隱馬爾可夫模型解碼問題(中文句法標註)
【自然語言處理:馬爾可夫模型(五)】:向前向後演算法解決隱馬爾可夫模型機器學習問題
【自然語言處理:談談學習模型的評估(一)】:統計角度窺視模型概念
【自然語言處理:談談學習模型的評估(二)】:基於data mining角度的模型評估與選擇
【自然語言處理:談談學習模型的評估(三)】:基於nlp角度的模型評價方法
【自然語言處理:談談學習模型的評估(四)】:基於r語言的模型案例實戰
古滕堡語料庫
搜狗實驗室新聞|網際網路資料
北京大學語言研究中心
計算機語言研究所
資料堂
宣告:大資料之行,始於足下:談談語料庫知多少。
千里之行,始於足下
公司訂有乙份電腦報,一般也沒有時間看它,有時去廁所的時候會找一張隨便翻翻,呵呵。前天就無意中翻到了乙個大專題,說什麼計算機專業就業率低,正規軍幹不過游擊隊,甚至有個香港的大學教授說內地的計算機教學基本沒有等等,佔據了該期電腦報的好幾個主要版面,其批判原力度不可謂不大。昨天,在csdn上發現也有 由於...
千里之行始於足下
有句話叫 萬事開頭難 說得有道理,但是我覺得更難的是開頭之後,怎麼堅持下去。自己活了26年了,耳濡目染和親身經歷,我都覺得,能夠一直堅持做某件事,確實太難了,不管這個事情有多麼微小,多麼容易做到。我仔細思考了下,我理解應該有以下這麼幾個原因 1 懶惰 不愛動,不愛寫,不想跑步,不想健身,不想記錄,不...
千里之行,始於足下。
以前更多還是偏愛於看別人的技術部落格,來解決自己實際開發中遇到的問題。但是這樣做很容易忘記當時的收穫,並沒有將別人的東西變成自己的東西。同時還養成了一碰到問題就向網路伸手的壞習慣,極少自己去思考和驗證,從來都是能解決我遇到的問題就ok,解決完了問題就把曾經撿起的知識丟到一邊。從業半年以來,每當我深思...