由於工作需要,同時購買了的中英文兩個版本,我看的是英文版,中文版由另外一位同事在看.
中文翻譯 《搜尋引擎-資訊檢索實踐》
在閱讀之前對書進行了大概瀏覽,覺得該書的內容很全,涉及到了ir的每個方面,因此,對於ir的初學者,和想對該領域有系統掌握的讀者是很好的教程。
該書包括以下章節和內容:
(其中第
一、二章是綜述,其他章節是對一二章內容的詳細闡述)
一、 search engines and information retrieval 介紹了資訊檢索(ir)的概括以及ir中的主要問題,以及搜尋引擎的設計和實現過程中要考慮的問題
1. 總結了ir中的3個big issues:
a. relevance 相關性
(1) topic relevance 主題相關性:
結果和使用者搜尋主題的match程度
(2) user relevance 使用者相關性 :
搜尋引擎的retrieval models以及ranking algorithm主要是為了解決相關性的問題.
b. evaluation 評估
搜尋結果的質量評價取決於結果是否match 使用者的期望
1960s的cleverdon 提出的評估方法在現在搜尋引擎評估中依然流行,該評估辦法包括以下指標:
(1) precision 精確度
搜尋結果中的文件相關性程度
(2) recall 召回率
相關的結果被找出來的比率
retrieve model和search engines的評估是個熱門的話題,目前主要是靠分析log和clickthrough資料
c. information user needs 以使用者想要的資訊為中心
由使用者來評價搜尋結果的好壞,通過feedback的形式與usr進行交換.
2.搜尋引擎設計與實現中的要考慮的幾個問題
(1) performance 效能
需要高效的爬取、處理、索引、檢索module
(2) incorporating new data 更新資料
要能夠覆蓋和及時更新網路上的新內容
(3) scalability 可擴充套件性
隨著資料和使用者的增加,要支援擴充套件
(4) adaptability 適應能力
要能夠適應不同的應用程式
(5) specific problems 特殊問題處理
二、 architecture of a search engine 搜尋引擎架構 本章闡述了如何在架構乙個搜尋引擎,以及架構的搜尋引擎的組成模組.
1. 架構搜尋引擎的兩個主要目標有:
efficiency(speed): 高效:能夠迅速進行工作
2. 組成模組:
(1) text acquisition 資料獲取
a.crawler 爬蟲
b.feeds: 實時種子,如 rss
c.conversion 轉換,html/xml可以直接讀取文字,但是pdf/excel/word之類的需要轉換成text文字才能進行後續處理
d.document data store 文件儲存
(2) text transformation 資料轉換
a.parser 文字解析,分詞
b.stopping 停用詞去除
c.stemming 單詞的不同時態、單複數處理
d.link extraction and analysis 鏈結提取
e.information extraction 資訊提取
f.classifier 資訊歸類
(3) index creation 建立索引
a.document statistics 文件統計
b.weighting 計算權重
c.inversion 倒排
d.index distribution 分布式索引
(4) user interaction 使用者互動
a.query input 輸入
b.query transformation 轉換
c.results output 輸出結果
(5) ranking 排序
a.scoring - query processing 根據排序演算法計算文件的score
b.performance optimization 效能優化:排序演算法的效能優化
c.distribution
(6) evaluation 評估
a.logging
b.ranking analysis
c.performance analysis
另外乙個劃分方法可以將搜尋引擎分為兩大塊
indexing process & query process
indexing process 包括 text acquisition、text transformation和index creation
query process包括 user interaction、evaluation和ranking
三、 crawler and feeds 網路爬蟲
四、 processing text 文字處理
五、 ranking and indexes 排序和索引
六、 queries and inte***ces
七、 retrieval model 檢索模型
八、 evaluating search engines評估搜尋引擎
九、 classification and clustering 歸類
十、 social search
十一、 beyond bag of words
《監控》讀後感
監控 讀後感 監控 更合適被定義為一本偵探 它非常引人入勝地描述了幾起錯綜複雜的案件,描寫得棒極了,以致我夜以繼日地讀完了它,為的是找到事情的真相。它使用了倒序的方式,一開始,作者就用不安的口氣說道 到現在為止,我都無法從那些恐怖中掙脫開來。呵呵,到底是什麼事情呢,這麼勾人?很難為情,但我不得不說,...
《觀止》讀後感
對於 觀止 一書中我的解讀 這個是描述微軟當年nt開發專案組的人和事的,可以當作一種專案管理實戰來看,相當精彩.看微軟高層 找到正確的人,給予充分的信任和自由.看nt團隊內 追求技術,全身心的投入技術.讀到的內容 1.在目標一致 甚至是人生目標 的情況下,充分放權,讓每個成員發揮主觀能動性.2.搞技...
簡愛讀後感
今天終於讀完了有一本世界名著 簡愛 我非常喜歡這本書,也很喜歡這本書裡的女主角簡.愛小姐。讀這本書的整個過程都是非常愉快的,完全折服於簡愛這個小個子女孩子強大而豐富的內心世界。簡愛 是英國著名女作家夏洛蒂.勃朗特的代表作,這也是一部具有自傳色彩的作品。這是我這兩年讀的第一位女作家的書,女性所特有的優...