搭建搜尋引擎初試小刀

2021-05-28 16:04:20 字數 533 閱讀 2764

這幾天準備考慮搭建乙個搜尋引擎,於是從0開始學習搜尋方面的內容,還好,有很多開源的專案可以參考使用,除了學習參照,很多的可以直接拿過來用,真是感謝偉大的開源。

heritrix是乙個開箱即用的爬蟲(web crawl), 可以針對站點進行深度拷貝,而且帶有乙個webui, 允許使用者基於ui進行爬蟲的定製,同時也提供了若干種資料儲存的方式,heritrix將抓取過程分為: preprocessor, fetcher, extractor, writer, 和postprocessor. 針對乙個站點的爬蟲通過乙個job來定義。使用者可以自己定義各個環節的處理器。

優點: 開箱即用,帶有webui, 允許使用者自行進行擴充套件processor.

缺點:   只是爬蟲,只有抓取;將目標站點抓取過來,而無法實現部分資料的提取,這個需要使用者自己行進行提取;對抓取的內容,無索引和檢索功能。

nutch/solr: 目前2個已經可以整合了。nutch提供爬蟲和索引的功能,它可以抓取需要的內容。

solr:乙個基於lucene的全文檢索功能的工具。

所知甚少,還需繼續學習。

搜尋引擎搭建

需要安裝node.js 更改安全策略,否則elassearch head不能連線elasticsearch 集群 乙個或多個節點組織在一起。節點 乙個節點是集群中的乙個服氣,由乙個名字來標識,預設是乙個隨機的漫畫角色的名字。分片 將索引劃分為多份的能力,允許水平分割和擴充套件容量,多個分片響應請求,...

es搜尋引擎 Flask搭建ES搜尋引擎 二

現在正式進入主題 開始使用 flask 搭建 es 搜尋。配置檔案 config.py coding utf 8 import os db username root db password none 如果沒有密碼的話 db host 127.0.0.1 db port 3306 db name f...

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...