Nutch Lucene 之 搜尋引擎文字分析

2021-06-28 19:39:21 字數 1555 閱讀 6974

收穫:過去的一年裡 —— 自己感覺到最明顯的收穫,不是金錢,也不是學了幾門技術,更不是多看了一本經典書籍,而是自己面對難題,有一顆持之以恆的心,不到最後誓不罷休的精神;此時的我,能夠明顯的感覺到自己再也不是以前逃避問題的我,而是主動解決問題,一天不成第二天繼續~~~ 總之,一句話,不再把問題束之高閣,置之不理,或者等待別人的幫助,自己腳踏實地的摸索著解決問題。

0搜尋引擎文字分析——網路爬蟲處理網際網路資訊,從數量上看比例較大的是靜態網頁和動態的html頁面。但整個網路上散落的各種格式化文字檔案也非常重要。這部門檔案包括了各種文章、各種產品文件等,對使用者有很大的幫助。

1——非結構化文字概述

網際網路上和企業網內有很多專業的文件資料,尤其在檢索一些專業資料時,往往會在出現網頁文件的同時出現一些doc pdf ppt等格式的文件。非結構化的文字通常具有一定得格式,格式化的檔案一般結構複雜,通常有多家廠商的不同系統生成,這些格式使得普通程式讀取內容無從下手(如htmlparser)

2 ——html文件分析:

html網頁需要分析處理後才能用於索引和檢索的,html網頁的分析處理工具主要完成網頁格式文件的解析,過濾網頁中顯示格式控制元素和無意義資訊。 —— htmlparser工具包

3——pdf 文件分析:

它是國內使用率非常高的一種文件格式,這種檔案格式把文字影象等多種資訊集合在乙個文件中,必須根據他的文件格式,提取基本的文字資訊,才能用於檢索。—— pdfbox工具包是一款免費的開源軟體

4——office 文件分析:

5——xml 文件分析:

是一種較為 通用的文件格式,xml是可擴充套件標記語言(extensible marku盤language),是一種簡單的資料儲存語言,使用系列簡單的標記描述資料,廣泛用於資料交換領域 —— jdom工具包,功能強大,使用靈活方便,可以非常方便的完成xml的解釋和讀取操作,能夠幫助開發者快速實現xml應用程式。

6 —— 下面是文字索引的建立的簡單過程

插入篇 —— 駕駛證更換:戶口遷出後,駕駛證更換應該在遷入地更換

《機動車駕駛證申領和使用規定》(公安部第123號令)第四十九條規定:

機動車駕駛人戶籍遷出原車輛管理所管轄區的,應當向遷入地車輛管理所申請換證。

申請時應當填寫申請表,並提交第四十八條規定的證明、憑證:

(一)機動車駕駛人的身份證明;

(二)機動車駕駛證;

(三)縣級或者部隊團級以上醫療機構出具的有關身體條件的證明。屬於申請殘疾人專用小型自動擋載客汽車的,應當提交經省級衛生主管部門指定的專門醫療機構出具的有關身體條件的證明。

一是到期的駕駛證、彩色**1寸三張及有效身份證及身份證的影印件乙份;二是進行身體檢查;三是審核換證;四是領取新證。

搜尋之倒排索引

搜尋引擎最核心的技術,倒排索引技術,倒排索引可能需要分成幾篇文章才說得完,我們先會說說倒排索引的技術原理,然後會講講怎麼用一些資料結構和演算法來實現乙個倒排索引,然後會說乙個索引器怎麼通過文件來生成乙個倒排索引。什麼是倒排索引呢?索引我們都知道,就是為了能更快的找到文件的資料結構,比如給文件編個號,...

搜尋之正排索引

正排索引,也叫前向索引,和倒排索引 也叫反向索引 是相對的,正排索引相對倒排來說簡單多了,第二篇文章的時候有下面兩個 表1和表2 這個是表1 文件編號 文件內容 1這是乙個go語言實現的搜尋引擎 2php是世界上最好的語言 3linux是c語言和組合語言實現的 4谷歌是乙個世界上最好的搜尋引擎公司 ...

搜尋引擎索引之索引基礎

本文節選自 這就是搜尋引擎 核心技術詳解 第三章 本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件...