全文檢索(full-text search):
先建立索引,再對索引進行搜尋的過程,搜尋結果為匹配文字
一般過程:索引建立(indexing)和搜尋索引(search)
資料探勘(dm)
傳統的資料庫分析資料量太大後效率低,產生資料探勘和資料倉儲等新技術。資料探勘功能:
1.自動**趨勢和行為 2.
關聯分析
3.聚類
4.概念描述
5.偏差檢測
資料探勘之分詞器:
1.基於詞典分詞(目前主流的分詞方法,解決70~80%的問題,二元以上分詞後查詢字典直到找不到為止):正向最大匹配、逆向最大匹配、雙向最大匹配、最佳最大匹配
2.基於語義分詞(還不成熟)
3.基於統計分詞(優先高頻詞彙)
資料倉儲(dw)
資料倉儲是乙個環境,組成包括:
資料抽資料淨化 資料載入
資訊發布系統
操作型資料和外界資料
資料集市
報表,查詢, eis工具
olap 工具
資料探勘工具
操縱平台
元資料
管理平台
建立url和分詞元資料的鍵值對,提供全文檢索url
開源的搜尋引擎庫,提供全文索引方法
lucene建立索引五大類:
document、field、analyzer(分詞器)、indexwriter、directory
lucene搜尋:
query、term、termquery、indexsearcher、hits
api)
詞庫素材:
詞庫在網上很多如,qq拼音、搜狗拼音等詞庫都已加密,可以找一些未加密的詞庫,匯入lucene詞庫管理工具
solr:基於lucene建立的伺服器,提供全文搜尋服務
nutch:web搜尋引擎
haddoop:分布式服務框架
參考:
分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器分詞效果評估)
分詞器原理與原始碼分析
)全文檢索架構)
什麼叫全文檢索 全文檢索概念
全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...
什麼叫全文檢索 全文檢索概念
全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...
Nutla 全文檢索千億資料檢索框架
全文檢索千億資料檢索框架 nutla 核心結構 lucene hadoop 分布式搜尋執行框架 概述不管程式效能有多高,機器處理能力有多強,都會有其極限。能夠快速方便的橫向與縱向擴充套件是nut設計最重要的原則,以此原則形成以分布式平行計算為核心的架構設計。以分布式平行計算為核心的架構設計是nut區...