今天下午師兄做報告,講了知識(knowledge),怎麼用nlp幫助構建領域知識。
一般解決問題是都有兩種思路:知識的和資料驅動的。 一般的看法是,知識就是規則,通過專家建立起複雜的規則系統,然後解決問題就是根據規則進行判定。這其實就是乙個確定性的模型。而資料驅動則是根據資料學習出規則來。學習出來的規則可能是顯式的,比如決策樹學習出來就是顯式的規則(如果屬性1=*** and 屬性2 =yyy 那麼zzz),也可能是隱式的規則,比如svm分類器學出來的引數向量w。
我覺得不管是知識,還是學習的方法,其**都是資料。知識是人通過大量資料總結出來的規律,總結的方法也是統計的,而學習不過是把人的工作也做了而已。人在學習過程中會閱讀前人的書(知識),可能把它作為乙個先驗,然後根據自己的直接經驗,求出後驗概率。所以我覺得貝葉斯統計還是比較合理的。
師兄具體做的是從旅遊景點的網頁裡提取一些知識,構建乙個語義網,然後在之上做一些應用。
基本的常識庫使用的是hownet,去年董老師來我們實驗室做過乙個報告,推銷他的hownet。 然後對無結構的文字先做分詞和ner,以及詞性標註,然後做句法分析,最後做語義角色標註。利用標註擴充常識庫。比如頤和園位於北京西郊這句話,能提取位於這個動詞,以及頤和園和北京西郊的關係,然後根據hownet中位於的定義,建立起頤和園這個例項的乙個屬性,它位於北京西郊。
介紹的主要是怎麼構建語義網。推理沒怎麼講。現在的主流做法還是一階謂詞邏輯。我覺得可能用概率推理比較好。因為世界上的事件都是不確定性的,而且概率推理包含確定性推理。
不過垂直搜尋也許會是乙個不錯的應用點,一方面它的資料量相對較少,另一方面它要求更準確的元資料抽取,甚至要做一些推理。
VS學習筆記
對於vs的一天的學習,感覺這就是為我這種新手特別準備的。學習內容包括 資料型別和資料轉換 1.資料型別 1.1.資料基本型別 1.1.1整數型常用 int int32 顯示十位字元數 例 int a 1234567890 最常用 short int16 16b long int64 64b 8b 1...
深度學習 vs 機器學習 vs 模式識別
本文我們來關注下三個非常相關的概念 深度學習 機器學習和模式識別 以及他們與2015年最熱門的科技主題 機械人和人工智慧 的聯絡。圖1 人工智慧並非將人放入一台計算機中 於 workfusion 的部落格 環繞四周,你會發現不缺乏一些初創的高科技公司招聘機器學習專家的崗位。而其中只有一小部分需要深度...
被動學習VS自主學習
一直很煩惱於如何激發tony的自主學習激情,也一直在絞盡腦汁的折騰,在我的理解中,他十分樂於學習的,願意學習的,統稱為自主學習,直到看到這幅圖,我終於釋然 了,原來不管使用何種方法,儘管在本願上並不十分樂意,但在操作中達到自我實現的學習過程,也可以稱為自主學習。以下為自主學習與被動學習各種方式取得效...