書中定義的統計自然語言處理由所有的自動語言處理的定量方法組成,包括概率模型,資訊理論,線性代數。代表自然語言處理中非符號化和非邏輯的工作。
語言的非絕對性,需要利用統計觀察來考察問題。
因為生活中充滿了不確定和不完整的資訊,為了能和世界有效的相互作
用,我們需要處理這類資訊,所以概率論和隨機過程給我麼乙個可以處理不確定和不完整資訊架構的量化框架
這裡只是因為想到認知是隨機的,所以推廣到語言,但是我認為問題是需要針對特定問題的,在這裡我認為語言處理的第一步就是需要讓機器知道我們的某些想法,並且完成某些事情。如果階段性的去劃分這樣乙個過程,我覺得應該是這樣。
下命令->執行命令
1.給出具體某一條命令,電腦執行某一條命令:開機/關機
2.給出命令,電腦反饋所有能執行的命令:明天天氣真好->各個遊玩地點資訊,日程安排等。。。
3.給出任意命令,準確知道我要幹什麼。
那麼以上的問題首先就是機器要能做某些事情。
語言就是資訊,資訊就是一定要傳達某種內容,目標就是解析內容嘛!
其實我還沒有覺得有什麼歧義的問題,首先你必須知道這個句子中的每個詞語和字,如果這個都不知道肯定分析不出來嘛,我還是那個觀點,每個人心中對詞都有乙個詞網,「南京市長江大橋」如果我知道這個地方,ok,那麼這個詞就是乙個固定詞,如果不知道,那麼我就要用已知的方式去猜測,長江大橋我有概念,南京市我也知道。如果能精確的讓我去劃分這個短語,我肯定不知道江大橋是個什麼玩意,所以我能很好的判斷出來,也就是說我需要建立這樣一套系統,我要給出我對每個詞語了解程度的多少。關鍵就成了如何去聯絡詞語和現實世界。
語法規則問題:
關於語法這一塊的話,我現在是這麼考慮的,所有的內容都是詞語,不需要。必要,一定是必要的。以我語文語法水平為基準,我知道的基本我認為是必要的。名詞,動詞,形容詞。詞語中人物,時間,地點等基本少許的概念一定是要有的吧。既然是我知道的,那麼規則也肯定不多,肯定是夠用的。
由於語料庫使用中絕大部分詞語出現極少,而常用詞出現頻率極高,這樣很難**行為,最初認為使用更大的語料庫就可以解決這個問題,但是願望是無法證實的,下面提出語料庫語言學中最著名的早期結論:zipf法則,這個法則針對的問題就是這些稀有詞彙。
zipf我們能夠統計一種語言中所有的詞在乙個大型語料庫中出現的次數,並且按照其出現次數排列,發現f x r =k
自然語言處理學習記錄
v set text1 long words w for w in v if len w 15 找出長度大於7並且出現頻率大於7的單詞 fdisi5 freqdist text5 sorted w for w in set text5 if len w 7 and fdist5 w 7 檢視文字中詞...
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
自然語言處理學習筆記 006
常用的分詞方法 自然語言處理常用的分詞方法有正向和逆向最大匹配 最短路徑 全切分 最大概率 n 最短路徑等方法。現在流行起來的還有最大熵模型 hmm模型 決策樹 bp神經網路 n gram等方法。現在我很想把它們在分詞中的聯絡和區別都一一搞清楚。最大匹配分詞方法簡單 容易實現,但是無法解決上面提到的...