chapter.11如何確定網頁和查詢內容的相關性
2. tf-idf和資訊理論有密切的關係,可以用資訊理論進行證明
chapter.12地圖和本地搜尋(用移動客戶觀進行的當地搜尋)的最基本技術-----有限狀態機和動態規劃
2.有限狀態機是乙個特殊的有向圖,包括一些狀態節點和連線這些節點的有向弧(每一條弧上帶有狀態1到狀態2所需的條件),用於位址識別的上下文分析
3.模糊匹配問題的解決總是依靠馬爾科夫鏈
解決方法:
有限狀態機
有限狀態機方法先為位址建立起有限個狀態(市、省、街),然後從第乙個狀態開始,走到最後乙個狀態,把經過的狀態連線起來,形成有效位址。從乙個狀態走到下乙個狀態是有嚴格條件的。
3. 動態規劃:分段分步求解區域性最小路徑從而達到全程最小路徑
問題描述:求出地圖上任意兩點間的最短距離。
解決方法:
1.
遍歷查詢:時間複雜度呈指數增長,無法實現
2.
動態規劃
:在起點
a和終點
b之間劃一條分隔線,假設路程必然會經過線上某一點
x,這樣的點
x的數量是有限個,不妨記為
(x1,x2…xn)
。將求解全程最短路線化解為求解
min( d(a,xi) + d(xi,b)),其中d
表示距離
5.加權的有限狀態感測器wfst,其每乙個狀態由輸入和輸出符號定義,根據輸入和輸出可能性的不同賦以權重。wfst中的每一條路徑就是乙個候選的句子,其中概率最大的那條路徑就是句子的識別結果。
chapter.13阿公尺特.辛格博士
1. 先幫助使用者解決80%的問題,再慢慢解決剩下的20%問題,是在工業界成功的秘訣之一。簡單方案容易解釋每乙個步驟和方法背後的道理,這樣不僅便於除了問題debug,而且容易找到今後改進的目標。
2. 簡單哲學,要找到簡單有效的方法,靠的是豐富的研究經驗,堅持每天分析不好的結果,發現原因。
chapter.14新聞搜尋和餘弦定理
1.新聞分類原理:先把文字的新聞變成可以計算的一組數字(將新聞轉化成成每個詞的tf-idf值的向量),然後再設計乙個演算法算出任意兩篇新聞的相似性
2.向量方向越一致則新聞之間的用此比例越相似,因此餘弦定理在新聞搜尋中起到了巨大的作用
應用:新聞分類,廣告投放
3、大量資料的余弦距離:首先分母不用重複計算,可以預先儲存;其次,在計算相似度時,只計算非零元素即可;第三,刪除虛詞,不僅可提高計算速度,對新聞分類的準確性也大有好處。
4、進行位置加權,出現在文字不同位置的詞在分類時的重要性也不相同。
chapter.15 矩陣運算和文字處理中的兩個分類問題
1.文字處理的兩個分類問題:將文字按主題歸類,將詞彙表中的字詞按意思歸類
2.酉矩陣:它和它的共軛矩陣轉置相乘等於單位陣
3.矩陣的奇異值分解:amn=xmm*bmn*ynn,其中x,y為酉矩陣,b為對角陣
4.奇異值分解分類法相對於餘弦定理計算次數大幅降低---計算速度大大加快,但需要乙個更大的儲存量,且分類結果略顯粗糙
問題描述:當有海量資料,需要計算它們兩兩之間的距離時,計算量巨大,耗時太多。
解決方法:矩陣的
奇異值分解
方法。
奇異值分解方法是把乙個大矩陣分解成
3個小矩陣的乘積,每個矩陣都有明確的物理含義。分解之後,儲存量和計算量提高了
3個數量級。
提出了奇異值分解的並行演算法,極大的提高了演算法效率。
《數學之美》讀書筆記
通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...
《數學之美》讀書筆記
之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...
數學之美讀書筆記(一)
chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...