數學之美 第一章 文字和語言vs數字和資訊

2021-10-22 11:38:10 字數 1025 閱讀 5832

早期人類交流舉例,用某種特定的聲音表示「那裡有只熊」,同伴「呀呀」回應兩聲。早期人類的交流方式與現在的通訊中的資訊傳播模型相同。

隨著文明的進步,資訊量增加了,但是因為沒有人能夠記住大量的文字,因此出現了概念的「聚類」。比如,在中國的象形文本中,「日」本意是太陽,同時又指的是一天;在古代埃及的象形文本中,讀音相同的詞可能用同乙個符號進行記錄。這種概念上的聚類,在原理上與今天nlp或者ml中的聚類有很大的相似性。

文字按照意思來聚類,最終會帶來一些歧義性,解決這個問題的方法,就是依靠上下文。借助上下文,大多數情況下的多義字的去除歧義(disambiguation)都可以做到。

翻譯能夠實現,就因為不同文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體,而不是資訊本身。

羅塞塔石碑就起到了乙個翻譯的作用。

資訊的冗餘是資訊保安的保障。只要有乙份石碑內容儲存下來,原有的資訊就不會丟失。

語言的資料,我們稱之為語料。

之所以採用十進位制,是因為人有十個手指頭。)

阿拉伯數字的革命性在於標誌著數字與文字的分離,這在客觀上讓自然語言研究和數學在幾千年裡沒有重合的軌跡,且越走越遠。

從象形文本到拼音文字是乙個飛躍,因為人類在描述物體的方式上,從物體的外表進化到了抽象的概念,同時不自覺採用了對資訊的編碼

在羅馬體系文字中,常用字短,生僻字長,符合資訊理論中最短編碼原理

在書寫文字的媒介**高的時候,古文非常簡潔、但是難懂,而古代的口語語句較長並且易於理解,符合通訊的乙個原理:如果通道較寬,那麼資訊不必壓縮,就可以直接傳遞;如果通道較窄,那麼需要在傳遞前盡可能壓縮資訊,收到後在接收端解壓。

猶太人抄寫聖經後,每個字母對應乙個數字,需要把每一行的文字加起來,把每一列的文字加起來,形成校驗碼。

語法就是語言的編碼和解碼規則。

詞可以被認為是有限而且封閉的集合,而語言是無限和開放的集合。

《數學之美》 第一章 文字與語言VS數字和資訊

通訊模型 資訊源編碼發出資訊 通道傳遞資訊 接受者解碼接受資訊 語言和詞彙增多 文字產生 基於高效記錄資訊的需求 概念開始概括和歸類 概念的聚類原理上與自然語言的處理或者機器學習的聚類有很大的相似性。一詞多義 產生歧義 根據上下文消除歧義 羅塞塔石碑的啟示 資訊的冗餘是資訊保安的保障 雙語或者多語的...

《數學之美》 第一章 個人筆記

最近在讀 數學之美 這本書,做一下個人筆記。看的是pdf,看完後會買一本的哦!版權意識還是有的。1 資訊 通訊的原理就是這三個步驟,本質上是一致的,只不過今天的實現形態發生了變化。更技術,更高大上了。2 文字和數字 語言的越來越豐富,詞彙的越來越多,人無法記住所有產生的詞彙,所以文字就此誕生,是為了...

數學之美讀書筆記第一章

通訊的原理和資訊傳播的模型 原理 資訊被編碼,再被解碼的過程。資訊傳播的模型 傳播人 資訊 編碼資訊 通道 聲音介質,雙絞線介質等 解碼資訊 接受者。資訊源的編碼和最短編碼 常用的資訊被編碼為更加簡單或者書寫更加少來實現最短編碼。不常用的資訊通常筆畫較多,或者更加複雜。解碼的規則和語法 編碼後的語言...