pyaiml問答系統在使用過程中有一下問題:
1.匹配的時候*只能代表乙個字元以及乙個字元以上,而不能代表空值,導致需要多些很多規則。
x *哪*
x *哪
2.匹配的時候,遇見同義詞只能新增規則,不能用類似正規表示式|這種方式解決,導致也需要寫很多模板。
x *那*
x *那
3.不能新增排除專案,只能通過aiml裡面的完全匹配》模糊匹配的這種方式排序一些交叉問題,一下兩個問題只能通過把
什麼時間是去x?和怎麼去x?全部新增在規則中才能區別歧義,因為1問題也可以被2模板匹配到。
1.什麼時間是去x? *時*x 2.怎麼去x? *去x*
因此需要使用python的re包對aiml進行修改以減少規則的書寫以及支援排除專案。
^(?!(.*(補|重|再).*))(.*(x|x).*(哪|那|走|去|地|路).*)
問答系統調研
大型qa系統大多數是基於web資訊檢索的,各級nlp技術比如句法分析,ner,ir ie等都會涉及。還有一種是基於knowledge base的,將自然問句形式化成query,到知識庫裡檢索答案。如果想自己做乙個簡單系統的話可以先選擇乙個特定領域比如醫療qa,到網上抓取資料,用語義網rdf owl構...
問答系統搭建過程
假設我們的庫裡面已有存在以下幾個 問題,答案 假設乙個使用者往系統中輸入了問題 是做什麼的?那這時候系統先去匹配最相近的 已經存在庫里的 問題。那在這裡很顯然是 是做什麼的 和 主要做什麼方面的業務?是最相近的。所以當我們定位到這個問題之後,直接返回它的答案 他們主要做人工智慧方面的教育 就可以了。...
問答系統筆記1
1.聊天資料中詞語在不同位置的概率分布具有非常明顯的長尾特性。詞語概率分布上的模式會優先被decoder的語言模型學到,並在生成過程中嚴重抑制query和response之間詞語關聯模式的作用,即便有了query的語義向量作為條件,decoder仍然會挑選概率最大的 我 作為response的第乙個...