互動搜尋中的自然語言理解技術

2021-09-13 18:32:52 字數 1652 閱讀 5102

上面是使用者多輪對話購物的乙個例子,在使用者每次輸入後,query理解模組(qu)都會識別他本次對話的意圖、類目和屬性,對話狀態管理模組(dst)都會更新當前最終的意圖、類目和屬性。

購物:我想買連衣裙

知識問答:高階手機品牌有哪些,怎麼除甲醛

購物攻略:怎麼挑連衣裙

搭配:紅色連衣裙搭配什麼鞋子

**活動:iphone8活動

產品比較:iphone8 mate10 哪個好

nlu技術點

自然語言理解的模組如下:

意圖識別:很多時候,使用者的意圖是不明確的,比如搜「手機」,可能既想買手機,也不知道怎麼挑。但是從概率上來說,「手機」這個query的主要意圖還是購物。而「怎麼挑手機」,則主要是找購物攻略。因此,我們可以從querylog中找出使用者在輸入某些短語(如「怎麼挑」)的時候,是想找購物攻略的。意圖識別就是把這些短語挖掘出來,對query的意圖分類。

session切分:在使用者的一次購物過程中,可能會買多種類目(品類)的商品,同乙個類目的商品屬於乙個購物需求或者乙個session。因此,每次使用者輸入後,都要識別使用者是繼續說的,還是新的需求。有的時候,這種session切換會包含歧義,如先搜「手機」,再搜"蘋果",這時可能是「蘋果手機」,或者是「蘋果水果」,這時需要根據概率出缺省的語義(蘋果手機),並且給使用者其他的選項(蘋果水果)。

類目**:如果session切分是正確的,類目**就會比較容易了。不過,多輪的時候,使用者的需求更複雜,對類目**的要求也更高。當然,如果session切分錯了,類目**也會出錯。由於session切分和類目**都是對類目需求的理解,這兩個任務之間有很多共同點,所以我們也在考慮一起優化。

屬性填充slot filling 不同的葉子類目有不同的屬性集合,**的上萬個葉子類目中,也有上萬個屬性(slot)。高頻的屬性值可以通過知識圖譜中的cpv來直接匹配,但中低頻的屬性值則需要用到更多的資訊。很多屬性值有不同的說法,比如:iphone8plus、iphone8p、8plus、8p,這4個詞都是指"型號:iphone8plus"。還有很多屬性值並不在cpv中,比如「3到4歲」的奶粉。這些都需要識別到某乙個cpv屬性,或者乙個文字屬性,或者是沒有意義的詞。

對話狀態管理state tracking 這裡主要是進行屬性值的追加或者替換,比如先搜「only連衣裙」,再搜「zara」,這時的狀態是「zara連衣裙」。更複雜的是文字屬性的替換,比如先搜「便宜的手機」,再搜「貴的」,這時的狀態是「貴的手機」。

state tracking之後,使用者對話的語義理解就完成了,會輸出表示當前搜尋語義的「標準query」和tagging的結果,給後續的對話策略、排序等模組使用。

互動搜尋中的自然語言理解就給大家簡單介紹到這裡,真正想要理解自然語言的語義,任重而道遠。舉幾個語音搜尋中的例子,作為未來的目標,「1.5公尺寬兒童上下床帶衣櫃」,「我要夜蘿莉精靈夢中的蘿莉公主最好便宜的」,「必揹小孩子玩的玩具」。

自然語言理解 何為理解?

本章從何為理解?何為語言?何為語言理解的概念出發,進行小範圍的分析後,以求能夠找出機器自然語言理解的部分脈絡。1.2.1 何為理解?人們能夠用語言進行理解性的交流和資訊溝通,是建立在資訊交流的雙方都具有大致相同的知識記憶庫的基礎之上。以下舉些小例子來加以說明。例1 乙個說漢語的高中生和乙個說漢語的大...

NLP 自然語言理解概述

語言是人類有別於其他動物的乙個重要標誌。自然語言是區別於形式語言或人工語言 如邏輯語言和程式語言等 的人際交流的口頭語言 語音 和書面語言 文字 語言是人類進行通訊的自然媒介,它包括口語 書面語以及形體語 如啞語和旗語 等。一種比較正規的提法是 語言是用於傳遞資訊的表示方法 約定和規則的集合。語言由...

自然語言理解的實現方法

人類本來沒有語言,但是腦子裡有對周圍的世界的認知,於是人們約定了特定的聲音 文字表達特定的事物。自然語言的語法是約定俗成的,沒有標準的語法格式。只要能用聲音 文字的詞語順序表達自己頭腦中的認知,然後在對方的頭腦中構造這樣的認知,自然語言的目的就達到了。因為這個原因,所以我比較贊同模式匹配說。我很想吐...