search花絮之語義處理

2021-04-06 17:17:58 字數 1439 閱讀 3185

語義處理是自然語言處理前沿的熱點,其關鍵作用正逐漸成為學科領域的共識,而我們的中文資訊處理強項也在於語義處理,所以很自然就想把這一優勢具體體現到搜尋專案中來——但毫無疑問這是乙個摸索的過程。

最初我負責標題分析的研究,曾隨機抽取了一些標題示例,例如:

「移動儲存裝置」的例子

[[+[

移動儲存裝置]與[讀寫識別裝置]]

的[安全[認證方法]]]

[[

改變移動儲存裝置[+功能或狀態]

]的方法]

[[

一種實現

隨身[+電腦與計算機]間交換資料

]的方法]

[[

基於usb

移動儲存技術

]的[+[

可攜式訊號

[發生方法]]及系統]]

[[

可移動]儲存

裝置] [

數字**

裝置] 1.

「醫藥」的例子 [

化合物的[+[

製取方法]及其應用]]

[[[^[[

從低純鋁製備]的[鋁溶膠]]中]

脫除雜質

]的方法]

[

經改進的[[

抗炎]組合物]

的[製備方法]]

[

**殺[

真菌劑]]

[

薄層電池]

[

流體雜質

分離器]

2.

「農業」的例子 [[

製取**醇

]的方法]

[

能引起生物[+[效應的[搪瓷板]

]及其[

製造方法]]]

[[

一種用深層培養菌絲體

製作蘑菇栽培種

]的工藝]

[

微型多功能人力

套播機]

3.

其他

[一種烤

[+[羊腿]、[羊排]或豬排][製作方法]]

[[一種用於

高[折光率]鏡片]的[[可聚合]組合物]]

這些例子中有一些標註符號,是當時(去年

8月份)短語處理研究的中間結果。而這次標題分析就是在這個基礎上,分析語義的結構及其在檢索中的應用。

隨意看幾個例子,如「

[數字**

裝置][

化合物的[+[

製取方法]及其應用]]

」,既包括方法又包括應用,但其核心特徵就是「製取化合物」。這種語義結構從其短語結構中進行變換獲取時具有一定難度。但對於任意具有這種特徵的標題中,相似度應該都比較高。

所以一般的說,研究語義處理在檢索中的應用,自然而然就面對兩個問題: u

語義結構的定義與獲取 u

語義結構對檢索的影響引數的量化

對這兩個問題進行回答,並在實踐中進行評測檢驗,其意義是十分重大的;也是在檢索中做語義處理的根本入口。

search花絮之堆合併

大規模詞庫的詞彙檢索是乙個非常耗時的操作,所以其資料結構一般都是需要經過仔細設計的。單位裡原有乙個堆結構,最近將它模板化,並在它基礎上做模糊查詢。但原來沒有詞庫的歸併演算法,這些日子不得不重新實現乙個。演算法的難點在於尋找合適的子塊進行 move 操作以及調整該子塊的所有相關指標。下面是測試例子之一...

AIOPS 自然語義處理之TF IDF演算法詳解

目錄 要解決的問題 名詞解釋 演算法思想 舉例說明 優缺點參考文章 從乙個非結構的文字中,在無人工干預的情況下,利用計算機準確提取文字的意思?備註 乙個詞的逆文當頻率和乙個詞的常見程度成反比 如果包含詞條t的文件越少,idf越大,則說明詞條具有很好的類別區分能力 step1 計算詞頻 tf 特定詞在...

Kafka之精確一次處理語義

訊息處理語義 producer consumer 案例 test public void testidempotence else if recordmetadata null producer.close 實現原理 kafka以上的設計確保了即使出現重試操作,每條訊息也僅僅在日誌中儲存一次。不過由...