第1章 文字和語言vs數字和資訊
文字按照意思來聚類,最終回帶來一些歧義。上下文建立的概率模型也會出現錯誤。
羅塞塔石碑對自然語言處理的兩點指導意義:
1. 資訊的冗餘是資訊保安的保障。
2. 語言的資料,我們稱之為語料,尤其是雙語或者是多語的對照語料對翻譯至關重要,是我們從事機器翻譯研究的基礎。
最早的計數工具—史瓦帝尼的樂邦博古
十進位制—編碼—
象形文本—拼音文字
常用字短,生僻字長------資訊理論中的最短編碼理論---語法、語言(自然語言處理認為語言是編碼)
資訊傳遞:通道較寬,不必壓縮—講話快
通道較窄,進行壓縮—書信慢--------
資訊校驗(古猶太人)
第2章 自然語言處理—從規則到統計
字母(筆畫)、文字和數字實際上都是資訊編碼的不同單位。語言是編碼方式,語言規則是編譯碼的演算法。
機器智慧型—電腦科學支付阿蘭.圖靈提出
自然語言處發展的兩個階段(60多年):
1.20世紀50年代到20世紀70年代,走彎路的階段。用電腦模擬人腦,
2.之後,基於數學模型和統計的方法
不是靠計算機理解了自然語言,而是通過數學,更準確的說是靠統計
上世紀70年代的基於統計的方法核心模型是通訊系統加隱含馬爾可夫模型
1988,基於統計的機器翻譯方法
數學之美 學習數學,是一項長期投資
對絕大多數人來說,數學是一生中學得最多的一門課程 從小學到中學,從中學到大學,包括到了研究生的學習階段,都在學習數學。你可能會問,為什麼要花這麼多時間來學習數學?又為什麼一定要努力學好數學呢?書到用時方恨少真的是這樣!李開復博士曾經說過後悔沒有多修一些數學課程,那時沒有體會,當學機器學習遇到凸優化 ...
數學之美筆記1
文字和語言vs數字和資訊 不同的文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體,而非資訊本身 羅塞塔石碑 雙語對照的指導意義 1.資訊的冗餘是資訊保安的保障 2語言的資料,也就是語料,尤其是雙語或者多語的對照語料對翻譯至關重要,是機器翻譯研究的基礎 包括0在內的10個阿拉伯數字是印度人發明。...
《數學之美》筆記1
文字和數字,語言和資訊,從產生的源泉來看,它們有著天然的聯絡。半個多世紀前,夏農博士發明資訊理論,才真正把數學和資訊系統聯絡起來,這也為現代資訊處理技術的發展提供了數學理論支援。原始時代人類通過不同的聲音來傳遞不同的資訊,這就是最原始的資訊形式,只是那時候通過聲音即可傳遞所要傳遞的少量資訊,因此就沒...