【不定期過來加幾句】
2016-12-12之前部分:
翻譯這件事兒之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。
資訊的冗餘是資訊保安的保障。
羅馬數字編碼方式:i代表1,v代表5,左側為減,右側為加,所以iv就是5-1=4,vii就是5+2=7。
阿拉伯數字的真正發明人是印度人,只是由阿拉伯人傳入歐洲。
計算機是否有處理自然語言的能力?如果有,是否和人類一樣? (書裡說yes)
五六十年前對於人工智慧和自然語言理解的認知:想要讓機器擁有翻譯或者語音識別的能力必須要讓計算機理解自然語言,而要做到這一點必須要讓計算機擁有類似於人的智慧型。(前面被稱為「鳥飛派」,看鳥怎麼飛然後模仿鳥造出飛機) 然而懷特兄弟造飛機靠的是空氣動力學而不是仿生學。同樣,而今的機器翻譯和語音識別靠的是統計學而非真正理解多重語言。
語言裡有語法規則,詞性,構詞法等等恰好能比較方便地用計算方法描述,堅定了大家對基於規則的自然語言處理的信心。
//但是每種規則都有很多特例。。而且很多時候規則樹很龐大。。
規則處理自然語言的方法在上個世紀六十年代受挫,(the pen is in thebox和the box is in the pen)pen也可以表示圍欄的意思。之後統計語言學的興起使得自然語言處理重獲新生。
語言模型中的二元模型:用來計算一句話出現的概率,統計一句話出現的概率其實是一件非常難的事情,故而馬爾可夫提出了一種偷懶但有效的方法——只計算在前乙個詞出現的情況下下乙個詞出現的概率,這樣串聯起來一句話就可以計算乙個句子出現的概率了。
/*在統計學沒有大規模引入句法分析的時候分析句子是否合理其實很麻煩,但用統計學來看一些句子會合理很多,例如打亂乙個句法合理的句子之後概率可能小五六個數量級。(雖然本身出現的概率只有-20的數量級)*/
吳軍博士的《數學之美》(摘錄)
說明 以下內容是我從這本書中挑選出來,對我的思維和思想有所啟發的。在這裡分享給大家。阿拉伯數字的發明者是印度人。有阿拉伯人將其發揚光大。羅馬體系的拼音文字中,總體來講,常用字短,生僻字長。而在漢字中,大多常用字筆畫少,生僻字筆畫多。這完全符合資訊理論中最短編碼原理,同時給書寫帶來了省時間和省材料。任...
數學之美4
第7章 賈里尼克和現代語言處理 第8章 簡單之美 布林代數和搜尋引擎 道與術 事情的原理是道,具體的做事方法叫術。追求的術的人,一生工作辛苦,只有掌握道,才能游刃有餘。追求術的人,往往是希望走捷徑,希望有乙個模型能把事情畢其功於一役,但這是不現實的。1.布林代數 就是真 假的組合四則運算 與 或 非...
數學之美6
第12 章 有限狀態機和動態規劃 地圖與本地搜尋的核心技術 1 1 位址分析和有限狀態機 1.智慧型手機導航最關鍵的三個問題 a.利用衛星定位 b.位址識別 c.根據使用者輸入的起點和終點,在地圖上規劃最短路徑或者最快路徑 2.位址分析和有限狀態機 位址的識別上下文有關文法相對簡單,最有效的是有限狀...