多語種全文搜尋
產生背景
全文檢索是資訊檢索的核心業務,當前
不同的語種需要不同的分詞技術,這樣不同語種搜尋引擎的建立必然會消耗大量的人力和物力,能否實現不依靠分詞技術為不同語種提供統一的搜尋服務?
,不再是依賴於分詞技術的搜尋,
它是適合不同語種的全文搜尋引擎;作為新一代的全文搜尋技術,支援資訊上下文關聯搜尋,不僅僅用於全文搜尋,還可以用於其他資訊的搜尋。
主要功能
基於語義樹提供
,實現多語種的全文搜尋
;通過語義特徵碼演算法實現不同語言的精準搜尋。
1、基於自然語句的查詢
2、實現聯想記憶的上下文查詢方式
3、支援utf8所表示的語言
4、國際化部署的設定
5、最快捷和經濟的全文搜尋解決方案
關鍵技術
1、
語義特徵編碼技術
系統採用語句增量雜湊的結果作為特徵量,依次表示語句的特徵,相同的語句只有唯一的特徵量,語句經過特徵編碼處理後轉換為統一長度的字串或者整型結構的資料,解決了語句的儲存和檢索問題。語義特徵編碼技術保證了語句中文字之間順序關係,決定了語句的儲存量,只與不同語句的多少有關,相同的語句無需再次儲存,便於檢索和儲存。 2、
語義樹鏈式儲存技術
和倒排序表不同,本系統功能實現採用語義樹鏈式儲存技術。儲存採用三個表記錄:語義樹、文件和語句的關係。語義樹主要包括:語義特徵編碼、當前文字單元、前語句特徵編碼、是否為句尾標識;文件和語句的關係表主要包括:語句特徵編碼id和文件id;文件記錄主要包括:文件id和文件。
3、語義聯想記憶技術
通過語義標識id的鏈式儲存,構建語義上下關聯的關係,實現對語句的上下文搜尋,從而實現一定程度的語義會話功能。系統主要用於人工智慧領域的語義理解、智慧型機械人的人機對話、自然語言的語句搜尋。 4
、語義樹全文搜尋引擎技術
多語種全文搜尋關鍵技術包括:資訊保安演算法、資訊搜尋演算法等。語義特徵編碼技術是全文搜尋的核心演算法,數字指紋演算法在其中起到關鍵性的作用;密文搜尋的關鍵演算法是分離碼演算法。 5
、基於路徑雜湊的訊息摘要技術
通過資訊分組、路徑雜湊計算、結果序列調和雜湊,結合輸出字串的設定,從而輸出訊息摘要。本技術可以擴充套件和衍生不同的摘要演算法,不同的分組,不同的變換序列,不同的路徑選擇演算法,不同的雜湊演算法均可以產生不同的訊息摘要。 6
、資訊序列特徵編碼和檢索技術
通過對資訊進行分段,規定最小資訊單元,按資訊單元的劃分進行增量雜湊編碼,形成資訊特徵序列,方便資訊的檢索,適合於非結構資訊的索引,構建一種基於資訊bit位的特徵檢索。 7
、分離編譯碼技術
利用數字不同進製的轉換結合碼表,形成資訊變換序列和位數序列分離,實現資訊的編碼;以及結合碼表、變換序列和位數序列來解碼實現資訊還原的方法。
資訊變換序列指的是:按設定讀取的單元資訊形成整數,通過設定的進製轉換,結合碼表形成的字串行。位數序列指的是:按設定讀取的單元資訊形成整數,通過設定的進製轉換,結合碼表形成的字元的個數序列。不同進製之間轉換形成資訊的分塊儲存或者傳輸,可以保證資訊的安全性,常用於多宿主機的通訊,或者不同通道的通訊之間的資訊保安傳輸;結合碼表滿足特定的資訊傳輸安全。
技術路線
系統由全文索引系統、索引安全演算法、資訊保安系統組成。索引安全演算法可以採用分離碼演算法實現,全文檢索採用基於自然語句的索引系統組成。
1、全文檢索路線:
(1)通過文件的匯入,以語義中的句子為單位,形成語義樹。
(2)語義樹的構建,基於文字的表示習慣,以語句為單位構建文字和文字之前的前後關係。
(3)基於文字的編碼規定,結合文字特有的分隔符對語句進行切分,對語句進行特徵序列的編碼處理。
(4)通過給定組建語義樹的編碼範圍,構建單一語種、多語種組合甚至不分語種的語義樹。
(5)針對語句或者語句片段的查詢,通過構建查詢的內容的特徵序列,在特徵語義樹中查詢記錄,主要分以下步驟:1)特徵序列的最大化查詢;2)特徵序列的遞減查詢;3)語句特徵序列的關聯文件或者處理方法查詢。
2、分離編譯碼路線
(1)制定碼表:確定處理資訊的單元位數,確定轉換的進製,定義碼表;
(2)編碼:根據要求讀取64位(或者128位,或者其他)賦值給整數,然後根據要求轉換成相應的進製(對應的數字用碼表表示的字元表示),轉換結果記錄到變換序列,轉換後的位數記錄到位數序列,一直持續到轉換完畢,最後形成兩個部分。變換序列的字元一定是碼表的字元,位數序列主要記載轉換按位對應在變換記錄的長度。
(3)解碼:讀取位數資訊,按位數讀取相關的字元,查詢碼表變換成相應的數字,結合原有的進製定義,轉換成整數,存入到檔案中,一直到
轉換完畢,實現資訊的解碼。
技術指標
1、功能
(1)支援所有utf8編碼的語言的全文檢索。
(2)人機介面多語種支援,支援所有utf8編碼的語言,提供國際化部署的設定。
(3)基於聯想語義的全文檢索。
(4)支援密文資訊的全文檢索。
(5)提供api介面。方便其他系統呼叫和資料的匯入工作。
(6)支援前端直接資料匯入,js語句實現。
2、效能(cpu:i5,記憶體8g)
(1)支援作業系統:linux、windows、os等64位作業系統
(2)支援資料庫:mongodb和mysql
(3)可靠性:系統服務採用http協議,支援高可用部署,資料儲存支援多副本集或者主從的部署
(4)4k文件索引,每秒大於550
(5)語句檢索平均響應時間小於50毫秒
(6)語句聯想平均響應時間小於100毫秒
(7)每秒併發大於1000
(8)平均無故障率99.9%
理論創新
全文檢索:一般的全文檢索均為關鍵字和詞的檢索,依靠的是分詞技術和倒排序表,本系統實現的是以自然語句為檢索條件的全文檢索系統,系統依靠獨有的語義樹鏈式儲存技術來實現,語句的檢索經過計算處理變成語義特徵碼,從而實現快速的檢索。
應用創新
(1)基於自然語句搜尋:對文字資訊進行特徵序列編碼,形成相關的語義樹,實現一種基於自然語句的全文搜尋服務,
使搜尋不再
是基於關鍵字和詞的搜尋,它是一種適合不同語種的全文搜尋引擎,具有儲存空間小,索引速度和查詢速度快等特點。
(2)視覺化語義樹:以視覺化的形式展現語義樹,語義樹的儲存為語句的分析、智慧型情報檢索提供了基礎支撐。
(3)語句快速查詢:語句查詢是先對語句進行特徵編碼
計算,後根據該特徵碼查詢,避免了多維結果集合的計算,實現了快速查詢。
(4)支援國際化部署:通過簡單的配置檔案,當地語言匯入到系統介面即可實現系統的本地化部署。
(5)多語種的支援:所有的文字對於計算機而言均為數字,系統提供為差別的全文檢索服務。系統支援utf8的編碼語言。
影響及評價
1、影響
多語種全文搜尋系統,使搜尋不再是是
依賴於分詞的搜尋,
它適合不同語種的全文搜尋引擎,作為新一代的全文搜尋技術,支援資訊上下文關聯搜尋,不僅僅用於全文搜尋,還可以用於其他資訊的搜尋。例如:智慧型交通中的路徑搜尋,行為習慣的關聯搜尋等。
獨有的語義特徵碼和語義樹鏈式儲存技術,無需分詞技術,對比傳統的僅需其1%的計算資源(記憶體和索引的消耗)。
基於語句搜尋的全文搜尋系統,第一次以語句為單位實現,實現了基於語義的精準搜尋,實現了多語種的統一技術、統一部署,簡化了部署的方式,降低了維護和使用的成本,為多語種的資訊搜尋提供了技術的支援。
智慧型人性化搜尋是搜尋引擎的發展方向,結合語義理解和知識圖譜提供搜尋服務,多語種全文搜尋系統,提供語句的快速檢索功能,可以實現精準搜尋,在此基礎上結合語義理解技術可以更好的為智慧型人性化搜尋服務。
2、評價
多語種全文搜尋系統開創了無需分詞技術,基於自然語句搜尋的新時代,查新評定該系統綜合技術達到國際領先水平
,具有廣闊的市場前景。
用VC 實現軟體的多語種支援
前言 只用一套源 就可以方便地支援多種文字和多個地域,那麼這個軟體就可以方便地被翻譯成本地版本,這個過程叫做地域化 localization 怎樣才能不修改任何源 就使之能動態地轉換到不同的地域資源上呢?那就是使用windows的程式特性之一 資源。把在軟體中用到的可見資源維繫在乙個資源dll dy...
用VC 實現軟體的多語種支援
前言 只用一套源 就可以方便地支援多種文字和多個地域,那麼這個軟體就可以方便地被翻譯成本地版本,這個過程叫做地域化 localization 怎樣才能不修改任何源 就使之能動態地轉換到不同的地域資源上呢?那就是使用windows的程式特性之一 資源。把在軟體中用到的可見資源維繫在乙個資源dll dy...
NEC多語種語音翻譯服務小型業務終端即將上市
自 2018 年 3 月 31 日起,nec針對有外國遊客接待服務需求的機場 酒店和百貨店等推出多語種語音翻譯服務專用的小型業務終端裝置,為外語溝通交流提供幫助。多語種語音翻譯服務 就是 2017 年 11 月開始銷售的以遊客接待行業為物件的語音翻譯服務 注 此次,除了通過智慧型手機和平板電腦使用該...