數學之美
最近在讀《數學之美》這本書,做一下個人筆記。看的是pdf,看完後會買一本的哦!版權意識還是有的。
1 中文分詞方法的演變
最早的方法(北航):查字典,可以解決七八成問題,成本不高,效果還行。
隨後(哈工大):最少詞數的分詞理論,即一句話應該分詞數量最少的詞串。不足之處在於二義性。
郭進(清華):統計語言模型方法,文中有詳細的公式說明。就是對一句話可能有s種分法,其中有一種分法出現的概率最大。裡面涉及到動態規劃和維特比演算法,有張圖表示過程:
這裡提到:統計語言模型很大程度是依照『』大眾的想法『』,或者說『』多數句子的用法『』,百分百是不可能的。
有關分詞的兩點說明:
⭐①不值得花大精力去進一步提高準確率,提公升空間有限。
⭐②英文和主要西方語言原本無須分詞的,手寫體的原因(詞與詞之間寫的時候常常無停頓)
2 延伸閱讀:如何衡量分詞的結果
2.1 分詞的一致性
乙個準確率在97%的分詞器很難講比乙個準確率在95%的分詞器要好,因為要看他們選用的所謂正確的人工分詞的資料是如何得來的。
2.2 詞的顆粒度和層次
人工分詞產生不一致性的原因主要在於人們對詞的顆粒度的認識問題。不同的應用中,會有一種顆粒度比另一種更好的情況。
機器翻譯中顆粒度大好——"聯想公司";網頁搜尋中小顆粒度好——"清華大學"。
不同的應用構造不同的分詞器?不必要且浪費。⭐好的做法是讓乙個分詞器同時支援不同層次的詞的切分(原理和實現文中有具體說明)
⭐分詞的不一致可以分為錯誤和顆粒度不一致兩種
錯誤又分成兩類:一類是越界型錯誤,『北京大學生』分成『北京大學-生』;另一類是覆蓋性錯誤,『賈里尼克』分成四個字。
顆粒度不一致:人工分詞的不一致大多屬於此類,要不斷完善複合詞的詞典。
《數學之美》 第四章 個人筆記
1 中文分詞方法的演變 最早的方法 北航 查字典,可以解決七八成問題,成本不高,效果還行。隨後 哈工大 最少詞數的分詞理論,即一句話應該分詞數量最少的詞串。不足之處在於二義性。郭進 清華 統計語言模型方法,文中有詳細的公式說明。就是對一句話可能有s種分法,其中有一種分法出現的概率最大。裡面涉及到動態...
讀《數學之美》第四章 談談分詞
中文分詞其實有點像古代的句讀 dou 韓愈的 師說 中就有 彼童子之師,授之書而習其句讀者也 古人文章是沒有標點符號的,行文一氣呵成。如果不懂離經斷句,就很難理解古文的意思。從某種程度上,句讀就類似今天要講的中文分詞。北京航空航天大學的梁南元教授提出了查字典的方法 查字典的方法就是把句子從左到右掃瞄...
第四章筆記
一.引入樣式 1.行內樣式表 2.內部樣式表 在head標籤裡面,title標籤下面 優點方便在同頁面中修改樣式 缺點不利於在多頁面間共享復用 及維護,對內容與樣式的分離也不夠徹底 3.外部樣式表 嵌入式匯入式 嵌入式和匯入式的區別 1.標籤屬於xhtml,import是屬於css2.1 2.使用鏈...