本專案是:中科院軟體所劉煥勇老師在github上的開源專案。
首先,就遇到了乙個mongodb的安裝問題,耽誤小姐姐我好久時間———
python -m pip --default-timeout=100 install --upgrade pip
通過pip install安裝的pymongo無法在anaconda環境下識別,需要通過命令列:
conda install -c pymongo
安裝完mongodb以後,再執行qaonmilitarykg-master/military_qa.py
會出現編碼錯誤:
unicodedecodeerror:
'gbk' codec can't decode byte 0xbc
in position 65
: illegal multibyte sequence
然而在linux系統上就能夠執行;這是因為linux上預設編碼是utf-8
,windows預設是gbk
,所以只需要在開啟檔案的時候加上encoding='utf-8'
;
open
(self.datapath, encoding=
'utf-8'
)
操作完上面的過程中,發現自己本機都沒安裝mongodb,所以產生了報錯:
所以,咱們現在開始安裝mongodb吧!!
提取碼:va25
(2)安裝專案執行步驟:
以下是摘抄老師的總結:軍事**知識圖譜構建與自動問答專案qaonmilitarykg
,藉以思考。
本專案完成了採集並解析軍事**庫**,進行字段資訊的標準化,形成一定規範、規模的軍事**裝備結構化知識庫。實現基於mongodb的軍事領域知識庫的自動問答。
本專案簡要介紹了工業級的問答架構圖,該架構圖樸實且如實地介紹了面相結構化文字的知識構建以及結構化查詢流程以及粗略實現細節。
面向具有數字型資料的結構化知識的問句的形式有多種,主要有純屬性值查詢如:單實體單屬性,單實體多屬性,多實體單屬性,多實體多屬性等問題。帶篩選條件查詢,如如單屬性值與多屬性值區間查詢。最值條件查詢共三種,本專案初步實現了對這三種主要問句型別問答。
在實體識別,屬性值識別,數值識別上,主要採用的方式是領域詞及擴充套件詞,配合正規表示式的方式來實現,沒有使用學習模型 。作為軍事領域,學習模型在**類實體識別上效果可能不會太好,在識別後進行實體鏈結對映會遇到一定困難
實體與查詢屬性項之間的對應和成對是整個問答查詢的最核心所在,本專案使用基於關係模板窮舉的方式完成該目標,準確率較高,但缺點是窮舉可能性不大,構造成本較高。
既然是結構化知識問答,那麼業務場景下的問答應該是簡單的,多實體多屬性混雜出現的情況應該要少一些,即問題的問答可以很多樣,但問題的內部結構不應太複雜,否則就丟失了自動問答解放資訊雜糅的本意了。
知識圖譜是結構化知識的一種方式,儲存方式可以用關係型,可以用nosql,也可以用圖資料庫,不同的方式的區別在於sql的轉化上。在關係級聯程度不高的情況下,使用非圖資料庫可能會是更好的方式。
深度學習在工業界問答中,在基於qa對檢索中用的比較多,在結構化知識圖譜查詢中較難大顯身手,集中應用點在實體論元識別上,個人認為在實體屬性關係的識別上不會很驚豔,很有可能沒有規則來的快,來的準確。
自動化路上的踩坑經過
1.執行太快的坑 今天在批量的從excel裡邊讀取資料,並根據這些資料建立訂單,然後建立的時候因為報錯了,找不到訂單 坑 執行的太快了,在獲取到資料之後,被測試系統建立訂單需要一點時間,但是 執行的太快了,在去查詢是否建立好的時候,訂單還沒有建立完成 填坑 在查詢之前,先等待個幾秒鐘再去查詢,目前還...
Macac App Inspetor經過的坑
環境需要 另外,推薦安裝 macaca cli.npm install macaca cli g 你需要準備好你需要進行檢視的移動平台的環境。android 請安裝 android sdk,ios 安裝 xcode.然後使用 macaca 命令列工具檢測環境是否準備好。macaca doctor 安...
systemtap embedded C 踩坑筆記
官方文件 systemtap的embedded c中,不能 include 也不能用printf和print。那怎麼列印呢?用stap printf。用法與printf一樣。還可以訪問cript中的全域性變數。官方文件中的示例 global var global var2 100 function ...