我們設計的兒童搜尋引擎實現了三大系統:檢索系統,推薦系統和前端展示系統。
1. 檢索系統
檢索系統是搜尋引擎的核心,實現檢索的基本功能。對於本系統,我們有兩種實現方式:
2. 推薦系統
3. 前端展示系統
前端展示系統是呈現給兒童的介面,關鍵是要生動新穎,符合兒童心理,抓住兒童眼球,讓兒童愛上搜尋。
該兒童搜尋引擎的系統架構圖如下圖:
元搜尋引擎實現比較簡單,不是本文討論的重點,後邊第7節會具體講解。本文主要介紹基於lucene的自建資料庫的全文檢索。
任何乙個自建資料庫的搜尋引擎都有四大基本模組:
其中,爬蟲獲取資訊是乙個比較複雜的系統,基本結構如下:
這就是兒童搜尋引擎的系統架構,我們在自建資料庫檢索的四大基礎模組上融合了元搜尋,在基本檢索功能基礎上實現了個性推薦,敏感詞過濾,前端展示等。
垂直搜尋引擎模組設計
3 初次過濾模組 過濾廣告,導航等無用資訊 概覽頁面選定區域內包含鏈結的規則識別 位址過濾和轉換。細覽頁面選定區域內包含資料的精確識別 格式轉換 內碼轉換,位址轉換,時間轉換等等 基於視覺的網頁自動分割槽技術 vips 網頁分割槽後的區域型別和特徵的自動標註。dom樹結構分析 基於分割槽的網頁結構分...
垂直搜尋引擎模組設計
3 初次過濾模組 過濾廣告,導航等無用資訊 概覽頁面選定區域內包含鏈結的規則識別 位址過濾和轉換。細覽頁面選定區域內包含資料的精確識別 格式轉換 內碼轉換,位址轉換,時間轉換等等 基於視覺的網頁自動分割槽技術 vips 網頁分割槽後的區域型別和特徵的自動標註。dom樹結構分析 基於分割槽的網頁結構分...
全面解讀垂直搜尋引擎
1 垂直搜尋引擎不是什麼?垂直搜尋不只是類google的行業通用搜尋。以房產行業為例,假如我們按照google抓取網頁的方法,來建造乙個房產行業google的做法,是行不通的。技巧壁壘不用說明,就算我們借助nutch,lucene等搜尋技巧來做,我們也無法供給差別化的服務,而沒有差別化的產品在網際網...