DFS分布式檔案搜尋引擎

2021-09-02 16:47:36 字數 607 閱讀 8620

[size=medium][b]這個搜尋引擎的主要特點是:[/b]

[list]

[*]· 基於分布式的高效能檔案搜尋引

[*]· 支援的檔案總大小可達到數百tb(數萬gb)

[*]· 單個檔案的大小可達數百gb

[*]· 支援的檔案數量可超過數千萬個

[*]· 支援ocr(光學字元識別)

[*]· 多語言支援,如英語、漢語、阿拉伯語、俄語、日語等

[*]· 支援中文的自定義分詞

[*]· 介面非常友好,功能強大

[*]· 基於資料夾的增強的安全管理

[*]· restful api介面,使軟體程式設計師可以將該引擎嵌入到其他應用程式中。

[/list][/size]

[size=medium]

這個內部搜尋引擎非常適合積累了大量文件和技術資料的中小型公司,特別是國外中小型公司,我們可以幫他們快速找到存在檔案伺服器或個人計算機上的文件。在此基礎上,我們正在開發文字挖掘功能,幫助客戶把非結構化及半結構化的資料轉換成為結構化資料,並進行統計分析和圖形展示。我們在石油勘探開發行業已經積累了豐富經驗,現準備先在石油行業開啟銷路,然後在移植到其他行業。歡迎有志之士加盟合作。

[/size]

分布式搜尋引擎

es是基於lucene實現的分布式搜尋引擎 elasticsearch。核心思想是在多台機器上啟動多個es程序例項,組成了乙個es集群。es中儲存資料的基本單位是索引,比如說你現在要在es中儲存一些訂單資料,你就應該在es中建立乙個索引,order idx,所有的訂單資料就都寫到這個索引裡面去,乙個...

ElasticSearch分布式搜尋引擎 高階查詢

本文承接自 elasticsearch分布式搜尋引擎簡介及其增刪改查那些事 elasticsearch分布式搜尋引擎 基本查詢 bool把各種其它查詢通過must 與 must not 非 should 或 的方式進行組合 get testindex511 search must not shoul...

分布式搜尋引擎介紹(一)

google就是典型的分布式搜尋引擎,它由上萬台計算機組成。下面主要講一下分布式搜尋引擎的核心問題以及主要的分布式搜尋引擎設計方法。分布式搜尋引擎的最主要的核心問題 1 分布的資訊獲取和計算,以及對此進行的資料統一 這裡面包括爬蟲或者相應的資料獲取機制的分布,對資訊進行加工的統一管理。2 資料處理後...