搜尋技術的應用越來越廣,掌握搜尋技術或者針對搜尋技術有了解的人也越來越多。最近接觸了不少搜尋人才,從對搜尋的了解程度來講,大體分為幾種不同的階段。
第乙個階段是使用開源的單機搜尋系統(最常見的是lucene),在其之上加入broker和cache,在其之上在構造應用。這個階段一般對lucene的工作原理以及基本的搜尋原理會略有了解,甚至還是有不少看過lucene的原始碼的。這也是大多數人接觸搜尋引擎的最方便和最常見的方式。但是這種系統一般只適用於較少量資料(千萬級),其併發效能一般也只能達到百萬級。好處是開發周期短,這一類的人才在市場上也容易找到,再加上一些好的idea,簡單的資料探勘方法(分類、聚類、協同過濾、使用者行為分析等)就可以很快做出原型系統,滿足一些小公司的前期創業階段的技術要求。
第二個階段是自行開發的垂直領域內的搜尋,這個階段一般資料量會達到上億或者幾億,如果用開源系統,其價效比已經不能滿足要求,需要的伺服器會超出承受能力,所以就會進行自己開發搜尋系統,這種系統大都是針對記憶體的系統。這個階段的人才會對搜尋引擎的原理有較深的理解,可以自行開發簡單的搜尋應用。這類人才有很多是從第乙個階段發展過來的,他們會對搜尋的各個方面都有所了解,包括切詞、索引的建立、更新、應用的搭建、broker系統、cache系統、簡單的排序策略等等。對於大部分搜尋系統來講,這部分人才都可以完成對系統設計和開發。
前兩個階段,其資料**一般也是定向的抓取,基於模板的內容分析抽取,對服務的穩定性要求也沒有那麼高,更新無法做到無縫更新。
這個階段的人才會對通用搜尋遇到的挑戰有一定的解決能力。包括如何能夠在有限的資源內做到盡快的返回使用者的結果(效能指標),如何做到第一時間更新網際網路的熱點並且能夠展示到使用者面前(時新性指標),如何能夠盡可能多的收錄網際網路的有用頁面(覆蓋率指標),如何能夠把使用者最感興趣的結果放到最前面(相關性指標),還有很多使用者可用性、以及顯相關的指標。這些是評價通用搜尋的最主要的指標,每個指標都會有很大的挑戰。這個階段的人才一般最少會對其中的部分指標有自己解決的辦法。
第四個階段是對網頁搜尋系統的設計能力和架構能力都很強的人才,他們會針對搜尋系統的除暴露給使用者的表現部分有很深的理解和自己的解決方案外,還包括跨機房解決方案,基礎儲存運算在搜尋中的應用,高可用和靈活性的相關性實驗支援,高效靈活的資料探勘平台、介面及解決方案,系統的高度可擴充套件性和柔性服務能力等。這類人才在市場上鳳毛麟角,大家都在爭取。
談搜尋架構師的不同階段
搜尋技術的應用越來越廣,掌握搜尋技術或者針對搜尋技術有了解的人也越來越多。最近接觸了不少搜尋人才,從對搜尋的了解程度來講,大體分為幾種不同的階段。第乙個階段是使用開源的單機搜尋系統 最常見的是lucene 在其之上加入broker和cache,在其之上在構造應用。這個階段一般對lucene的工作原理...
談搜尋架構師的不同階段
原文引自 搜尋技術的應用越來越廣,掌握搜尋技術或者針對搜尋技術有了解的人也越來越多。最近接觸了不少搜尋人才,從對搜尋的了解程度來講,大體分為幾種不同的階段。第乙個階段是使用開源的單機搜尋系統 最常見的是lucene 在其之上加入broker和cache,在其之上在構造應用。這個階段一般對lucene...
架構師之路 架構師思維的培養
公司的cms 綜合賦碼管理系統 是winform的cs架構。這套系統的架構師換了3屆,到現在已經幾年沒有架構師了。本來入職時,崗位目標就是這個 自動化架構師 後來和領導達成共識先爭取成為儲備架構師,因為架構首先是為業務服務的,而工控行業有許多特別的地方,不是普通的軟體技術堆疊就能做出優秀的工控軟體的...