《數學之美》讀書筆記(四)

2021-07-26 08:42:19 字數 460 閱讀 4899

關於分詞

統計語言模型方法進行分詞

最好的一種分詞方法應該保證分完詞後這個句子出現的概率最大;

如果窮舉所有可能的分詞方法並計算每種可能性下句子的概率,計算量相當大。可以看成動態規劃問題dynamic programming,並利用維特比viterbi解碼演算法快速找到最佳分詞。

孫茂松教授的貢獻:解決了沒有詞典時的分詞

吳德凱教授:將中文分詞方法用於英文片語的分割,並且將英文片語和中文片語在機器翻譯時對應起來;

英文照樣需要分詞,比如手寫體識別,空格並不明顯。

乙個分詞器同時支援不同層次的詞的切分

首先需要乙個基本詞表和乙個複合詞表;前者包括無法在切分的詞。後者包括複合詞及其組成。

接下來根據兩個表各建立乙個語言模型,如l1和l2

然後根據基本詞表和l1對句子進行分詞,得到小粒度結果;

再用複合詞表和語言模型l2進行第二次分詞,輸出複合詞串。

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...

《數學之美》讀書筆記

之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...

數學之美讀書筆記(一)

chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...