最近在讀《數學之美》這本書,做一下個人筆記。看的是pdf,看完後會買一本的哦!版權意識還是有的。
1 資訊
通訊的原理就是這三個步驟,本質上是一致的,只不過今天的實現形態發生了變化。更技術,更高大上了。
2 文字和數字
語言的越來越豐富,詞彙的越來越多,人無法記住所有產生的詞彙,所以文字就此誕生,是為了高效記錄資訊的訴求。
文字也如同語言最初一樣,會慢慢的增長。因此,概念的第一次概括和歸類就開始了。文中栗子:'日'本意是太陽 ;日初日落代表一天的時間週期,也就是一天。這種概念的聚類,在原理上與今天nlp或者ml的聚類有很大的相似性。
聚類可能會帶來歧義,解決辦法,就是通過上下文。但是上下文建立的概率模型再好,也有失靈的時候。這是語言從產生伊始就固有的特點。(有篇**就是從微博上下文來討論情感分析的。)
地域等因素的差異,導致文字的不同。但文明間需要交流通訊,翻譯的需求便由此產生。翻譯這件事之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。
⭐文字只是資訊的載體,而非資訊本身(總感覺像個套話,哈哈)
(數字作為載體,現代通訊的基礎)。
⭐⭐作者通過石碑得到的兩個指導意義很讚。
羅塞塔石碑上有三種語言:埃及象形文本,埃及的拼音文字,古希臘文。
對nlp的兩點指導意義:
①資訊的冗餘是資訊保安的保障,同一內容儲存三次,只要有乙份完整保留,原始資訊就不會丟失,對通道編碼有指導意義。
②語言的資料,即語料(做個性化詞典的預料?),尤其是雙語或者多語的對照語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。
與文字類似,數字則是物理資源多到**,你要統計一下才知道的情況下誕生的。這裡很有意思,⭐今天我們為什麼用十進位制
,因為雙手一共有十個指頭掰(哈哈)。
十個不夠用,進製就出來了。這是人類的一大飛躍,對數量進行編碼了。
(瑪雅二十進位制,原來太陽紀是這麼來的,世界末日?)中國人用『』個十百千萬億兆『』,比羅馬的編碼好多了。(我可以放心說羅馬數字很蠢了= =!)
最有效的數字是古印度人發明的『』阿拉伯數字『』——0-10,世界通用,原來阿拉伯人=二道販子!!!原諒我的無知。
⭐阿拉伯數字的革命性不僅在於它的簡潔有效,而且標誌著數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年裡公尺有重合的軌跡,而且越走越遠
3 文字和語言背後的數學
楔(xie)形文字——一種拼音文字,帶到古希臘,古希臘文字母的拼寫和讀音緊密結合,容易學習,伴隨著馬其頓人和羅馬人的擴張,隨後成為了歐亞非大陸語言體系的主體。因此,所有西方的拼音文字稱為羅馬式的語言(roman languages)
象形文本到拼音文字的乙個飛躍:對於常用字短,生僻字長,完全符合資訊理論中的最短編碼原理。
原來那時期的口語與今天的白話差別不大(嶺南客家話居然基本上保留了古代口語的原貌),但沒有紙張,古文就簡潔(難刻,龜殼硬= =讓我想到了大秦的雲夢竹簡那老哥—『喜』),對我們現在人來說就難懂。所以符合今天資訊科學(和工程)的一些基本原理,就是在通訊時,如果通道較寬,資訊不必壓縮就可以直接傳遞;而如果通道很窄,資訊在傳遞前需要盡可能地壓縮,然後在接收端進行解壓縮。文中用寬頻網際網路和移動網際網路的例子講的很通俗。
⭐文中的校驗碼——字母對應數字,數字組成』校驗碼』,可以進行檢驗。
文中有個關於語言學的:到底是語言對,還是語法對。nlp的成就確定了前者,作者還用了莎士比亞做說明。
數學之美讀書筆記第一章
通訊的原理和資訊傳播的模型 原理 資訊被編碼,再被解碼的過程。資訊傳播的模型 傳播人 資訊 編碼資訊 通道 聲音介質,雙絞線介質等 解碼資訊 接受者。資訊源的編碼和最短編碼 常用的資訊被編碼為更加簡單或者書寫更加少來實現最短編碼。不常用的資訊通常筆畫較多,或者更加複雜。解碼的規則和語法 編碼後的語言...
python第一章筆記 第一章 基礎
參與除法的兩個數中有乙個數為浮點數,結果也為浮點數 如 1.0 2,1 2.0,1.0 2.0 python print 1.0 2 結果 0.5 print 1 2.0 結果 0.5 print 1.0 2.0 結果 0.5 整數 整數,計算結果的小數部分被截除,只保留整數部分 不會四捨五入 如 ...
第一章 筆記
2.呼叫mat的size 方法,可以獲取該影象的尺寸。返回的是乙個結構體。mat image cout height 3.在原地進行的影象變換 mat image,result flip image,result,1 1 表示水平翻轉 2 表示垂直翻轉 負數表示既有水平也有垂直翻轉 imwrite ...