最近往中文資訊處理的方向進行研究,查閱資料,翻看書籍,做了一下總結。
「自然語言處理」的英文是"natural language processing",簡寫為nlp,注意了,以後見到「nlp」要知道是啥,不然就讓人笑掉大牙了。這裡在擴充套件幾個:
計算語言學
computational linguistics
計量語言學
quantitative linguistics
數理語言學
mathenmatical linguistics
自然語言理解
natural language understanding
人類語言技術
human language technology
中文資訊處理
natural information processing
研究內容依次為:
漢字資訊處理。研究漢字的輸入輸出和編碼。
詞的資訊處理。中文的詞語之間內有空格,沒有詞性變化,比起其他語言,需要分詞、確定詞性、詞義等。
句子的資訊處理。對詞處理之後的詞/詞性進行剖析,即句法分析。
句子語義表達與分析。語義形式化。
基礎資源:語料庫和知識庫
1.歧義
歧義是自然語言處理中的一大難點,包括語音歧義、分詞歧義、結構歧義、詞義歧義.
2. 語法
中文語法與西文語法有很大不同,例如英語可以利用其語法形態上的變化,如詞性、時態、語態等在語言的表示形式上有所區別,而漢語
一來一模一樣的字可以有不同的詞性,即同乙個詞有多種詞性而表示形式不變;
二來語法千變萬化,靈活性大,至今沒有乙個健全的規則來描述它;
三來漢語語序多種多樣,不同的語序又有不用的含義,目前可以說是毫無規則;
四來漢語多省略,只要語義清晰,主要成分、虛詞助詞等都可以省略且不影響表達。
在自然語言的研究方法上,歷來有理性主義和經驗主義。
理性主義一規則方法為主,經驗主義以統計方法為主(機器學習)。他們各有利弊,相互也爭了很久,目前從效果上基於統計的方法以及該全面超越了基於規則的方法,但是當語料規模增長到一定程度時,其精度必然回達到乙個極限。
基於規則的方法受到了語言學知識的限制,總是不能找到一套向牛頓、愛因斯坦等人找到的通用的定律一樣的理論。
基於統計的方法總是照顧多數忽略少數,只是出於對語料的概率擬合,並沒有真正理解語言,很難走向語義理解。
學生資訊處理程式
實現乙個學生資訊處理程式,計算乙個學生的四年平均成績。要求實現乙個代表學生的類,並且類中所有成員變數都是 私有的 補充下列程式中的 student 類以實現上述功能。include include include include include include using namespace std...
合作資訊處理模型
合作資訊處理模型 介紹 b業務經理的到來a公司洽談合作,a公司老闆接待 會晤,經 握手完畢 老闆會做下乙個和後續的管理c。允許c直接地a進入談判,然後,c找了幾個技術人員 c1 c2 c3 b多帶幾個業務人員 b1 b2 b3,模組 然後c與b協定手下的搭配。然後手下都認識一下,留下 接下來的各個模...
DOS下正確顯示中文資訊
很多使用者在windows中建立資料夾或檔案時喜歡用中文命名。不過,當你的windows由於發生故障無法進入,需要格式化硬碟重新安裝系統時,你會發現麻煩來了 由於需要先在純dos下備份檔案 夾 的內容,但在預設情況下純dos並不支援中文,因此執行dir命令後出現在面前的是一堆亂碼,根本無法進行複製。...