如何確定網頁和查詢的相關性
某個網頁與某個查詢的相關性=tf1*idf1 + tf2*idf2 + ....+ tfn*idfn
tfi是查詢中關鍵字i的詞頻,idfi為關鍵字i的重要性權重---逆文字詞頻指數。
總之,給定乙個查詢,有關網頁的綜合排名大致由相關性和網頁排名的乘積決定
地圖和本地搜尋的最基本技術---有限狀態機和動態規劃
智慧型手機的定位和導航功能具有三個關鍵技術:
1)利用衛星定位
2)位址識別
3)根據使用者輸入的起點和終點,在地圖上規劃最短路線或者最快路線
位址的文法是上下文有關文法,最有效的識別方法是有限狀態機。乙個有限狀態機是乙個特殊的有向圖。
1)通過一些有效的位址建立狀態機
2)在狀態機確定的情況下,位址字串的匹配演算法
google ak-47的設計者---阿公尺特-辛格博士
乙個好的演算法應該像ak-47衝鋒槍那樣:簡單、有效、可靠性好而且容易讀懂,而不應該故弄玄虛
許多失敗並不是因為人不優秀,而是做事情的方法不對,一開始追求大而全的解決方案,之後長時間不能完成,最後不了了之。
餘弦定理和新聞的分類
使用兩個向量之間夾角的余弦值來度量兩個向量之間的相似性
新聞的分類使用文字特徵向量余弦的距離自底向上的分類方法
矩陣運算和文字處理中的兩個分類問題
在自然語言處理只能怪,最常見的兩個分類問題:
1)將文字按主題分類
2)將詞彙表中的字詞按意思歸類
svd矩陣分解就可以解決上面的兩個問題,但是它的分類結果略顯粗糙,因此適合處理超大規模文字的粗分類。在實際工作中可以先用svd得到粗分類的結果,再利用計算向量余弦的方法在粗分類結果的基礎上進行幾次迭代,得到比較精確的結果。
資訊指紋及其應用
常用的指紋生成演算法:梅森旋轉演算法
判定兩個集合相同方法:
1)最壞的方法,將兩個集合的元素一一做比較,時間複雜度為o(n2)
2)將兩個集合分別排序,然後順序比較,時間複雜度為o(nlogn)
3)將乙個集合的每個元素對映到乙個雜湊表中,讓後把第二集合的元素一一和雜湊表中的元素做比較。時間複雜度o(n),空間複雜度o(n)
4)最好的方法,計算兩個集合的指紋,然後直接比較。定義乙個集合s=,s的指紋fp(s) = fp(e1)+fp(e2)+...+fp(en),由於加法的交換律保證集合的指紋不因元素出現的次序而改變,兩個集合元素相同,那麼他們的指紋一定相同。(不同元素的指紋相同的概率非常非常小)
兩個集合基本相同,運用在判定相同的網頁,允許有一定的容錯能力,採用特定的資訊指紋----相似雜湊。
談談密碼學的數學原理
密碼學的最高境界是無論地方獲取多少密文,也無法消除己方情報系統的不確定性,為了達到這個目的,不僅要求密文之間相互無關,同時密文還是看似完全隨機序列。
談談搜尋引擎發作弊問題
談談數學模型的重要性
1)乙個正確的數學模型應當在形式上是簡單的
2)乙個正確的模型一開始可能還不如乙個精雕細琢過的錯誤模型來的準確,但是如果我們認定的方向是對的,就應該堅持下去
3)大量準確的資料對研發很重要
4)正確的模型也可能受到噪音干擾,而顯得不準確;這時不應該用乙個湊合的修正方法來彌補它,而是遭到噪音的根源,這也許能通往重大的發現。
不要把雞蛋放到乙個籃子裡----談談最大熵模型
最大熵原理指出:需要對乙個隨機事件的概率分布進行**時,我們的**應當滿足全部已知的條件,而對未知的親狂不要做任何主觀假設(不做主觀假設這點很重要),在這種情況下,概率分布最均勻,**的風險最小。應為這時概率分布的資訊熵最大,所以人們稱這種模型為「最大熵模型」。
「數學之美」筆記
有一天乙個哥們,也許是個賭徒,向棣莫弗提了乙個和賭博相關的問題 a b 兩人在賭場裡賭博,a b 各自的獲勝概率是p,q 1 p p,q 1 pp,q 1 p,賭 n nn 局。兩人約定 若 a 贏的局數 x np x npx np,則 a 付給賭場 x n p x npx np元 若 x xx n...
數學之美筆記1
文字和語言vs數字和資訊 不同的文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體,而非資訊本身 羅塞塔石碑 雙語對照的指導意義 1.資訊的冗餘是資訊保安的保障 2語言的資料,也就是語料,尤其是雙語或者多語的對照語料對翻譯至關重要,是機器翻譯研究的基礎 包括0在內的10個阿拉伯數字是印度人發明。...
《數學之美》筆記1
文字和數字,語言和資訊,從產生的源泉來看,它們有著天然的聯絡。半個多世紀前,夏農博士發明資訊理論,才真正把數學和資訊系統聯絡起來,這也為現代資訊處理技術的發展提供了數學理論支援。原始時代人類通過不同的聲音來傳遞不同的資訊,這就是最原始的資訊形式,只是那時候通過聲音即可傳遞所要傳遞的少量資訊,因此就沒...