隨便總結的,書都看了,總要留下點印記不是本質就是乙個編譯碼和傳輸的過程
自然語言處理在過去的30年發生了巨大的變化
構建兩個詞表,乙個是基本詞表,乙個是複合詞表,再根據兩個詞表分表建立兩個語言模型:模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進行分詞.
成功的解決了複雜的語音識別、機器翻譯等問題
隱馬爾科夫模型的兩個必要演算法
資訊的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的資訊,來消除這些不確定性。
將所有的關鍵字建立索引,關鍵字的背後為網頁的鏈結,通過布林運算(and,or,not),將要需要的結果提取出來,【計算機做布林運算非常的迅速】
網頁排名
如果使用tf-idf加上pagerank演算法,那麼給定乙個查詢,有關網頁的綜合排名大致由相關性和網頁排名的乘積決定。
先幫助使用者解決80%的問題,再慢慢解決剩下的20%的問題,是在工業界成功的秘訣之一,許多失敗並不是因為人不優秀,而是做事情的方法不對,一開始追求大而全的解決方案,之後長時間不能完成,最後不了了之。
讀書筆記 數學之美
1.通訊模型 2.翻譯可行的條件 不同文字在記錄資訊的能力上是等價的,文字只是資訊載體,而非資訊本身。3.資訊的冗餘 是資訊保安的保障。語言的材料 語料 尤其是多語言的對照語料是機器翻譯的基礎。4.資訊的編碼,信源編碼 為了減少信源輸出符號串行中的剩餘度 提高符號的平均資訊量,對信源輸出的符號串行所...
《數學之美》讀書筆記
通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...
《數學之美》讀書筆記
之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...