第12 章 有限狀態機和動態規劃:地圖與本地搜尋的核心技術
1
1·位址分析和有限狀態機
1.智慧型手機導航最關鍵的三個問題:
a.利用衛星定位
b.位址識別
c.根據使用者輸入的起點和終點,在地圖上規劃最短路徑或者最快路徑
2.位址分析和有限狀態機
位址的識別上下文有關文法相對簡單,
最有效的是有限狀態機:乙個有限狀態機是乙個特殊的有向圖,包括一些節點(狀態)和連線這些節點的有向弧
如果乙個位址能從狀態機的起始位址,經過若干中間狀態,走到最終狀態,那麼這條位址就是有效的
兩個問題:乙個建立有效的狀態機,二是給定乙個狀態機後,位址字串的匹配演算法
而在自然語言的處理中,字串的需要進行模糊匹配,這種基於概率的有限狀態機和離散的馬爾科夫鏈基本上等效
3.全球導航和動態規劃(dynamic programming):
i.模型化:
將地圖對映為加權圖:兩節點間距離用弧長來代替,即是權重;
導航的問題即模型化為求加權圖的最短路徑。
ii.解決方法:
a. 原理:從起點到最短路徑上任一節點的距離,都是從起點到此節點的最短路徑,將「尋找全程最短路線的問題,分解為尋找區域性最短路線的小問題;
b.方法:
將加權圖進行切分,切分好後即可尋找起點到每個切分的最短路徑
4.有限狀態感測器:
i.有限狀態機的數學模型:
ii.在語音識別和自然語言的理解中有著非常重要的作用,特別是加權的有限狀態機感測器(weighted finite state transducer,簡稱wfst),和離散的馬爾科夫鏈模型一致
wfst的特殊性在於:有限狀態機中的每個狀態由輸入和輸出符號定義
在第二章的」自然語言處理「中提到的二元模型,都可以對應到wfst的乙個狀態,
語音識別中,每個被識別的句子都可以用乙個wfst來標識:
wfst中的每一條路徑就是乙個候選句子,概率最大的句子就是識別結果,演算法的原理就是動態規劃
第13章 google ak-47 的設計者:阿公尺特`辛格博士
反作弊:使用分類器判斷是否為商業意圖
簡單的哲學:先解決80%,之後在解決剩下的20%
數學之美4
第7章 賈里尼克和現代語言處理 第8章 簡單之美 布林代數和搜尋引擎 道與術 事情的原理是道,具體的做事方法叫術。追求的術的人,一生工作辛苦,只有掌握道,才能游刃有餘。追求術的人,往往是希望走捷徑,希望有乙個模型能把事情畢其功於一役,但這是不現實的。1.布林代數 就是真 假的組合四則運算 與 或 非...
《數學之美》摘錄
不定期過來加幾句 2016 12 12之前部分 翻譯這件事兒之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。資訊的冗餘是資訊保安的保障。羅馬數字編碼方式 i代表1,v代表5,左側為減,右側為加,所以iv就是5 1 4,vii就是5 2 7。阿拉伯數字的真正發明人是印度人,只是由阿拉...
數學之美(一)
一般人會直覺上認為連續的函式必然是近乎可導的。即使不可導,所謂不可導的點也必然只佔整體的一小部分。根據魏爾斯特拉斯在他的 中所描述,早期的許多數學家,包括高斯,都曾經假定連續函式不可導的部分是有限或可數的。這可能是因為直觀上想象乙個連續但在不可數個點上不可導的函式是很困難的事。當我們繪製函式的影象時...