一.自然語言處理
開源專案
選擇題目(acl會議**集)
1.依存句法分析(關鍵技術)
1.>基本思想:詞彙之間由二元非對稱關係連線
2.>方法
基於語法驅動
基於資料驅動
a.基於動態規劃
直接對圖(依存樹)分解
窮盡的、全域性的整棵依存樹 受限的
b.基於決策
將依存分析過程分解成決策序列
貪婪的、區域性的乙個詞對 豐富的
c.基於融合
融合ab的優點
d.擴充套件性工作
web海量資料、領域自適應、長距離的依存關係
2.資訊抽取(實體為中心的事實性資訊->結構化資料)
1.>文字資訊抽取
2.>自然語言文字資訊抽取
a. 實體識別、
開放域實體識別
思路:網頁結構、上下文
方法:query log、web page、融合多個資料來源
b.實體消除
評價方法:平均準確度map
基於聚類:所有實體指稱項聚類、同一類指稱項具有相似的上下文(選取特徵)
詞袋模型(周邊詞、空間向量模型計算)
語義特徵(語義資訊、svd分解、余弦相似度計算)
社會化網路(社會關係、網頁鏈結特徵)
多源異構知識(wikipedia wordnet web網頁庫)
用weps資料集進行測試
候選實體的發現(維基百科、上下文)、
鏈結(相似度最大,單一實體、協同實體)
方法:詞袋子模型計算相似度
c.關係抽取
傳統:統計機器學習(基於特徵向量》速度快、基於核函式》結構化)
開放域:維基百科、查詢日誌、網頁
3.觀點挖掘和傾向性分析(主觀性資訊)
1>方法
詞階段:
wordnet相似性擴充套件
句子階段:
corpus-based(監督)(特徵學習、上下文影響、上下文+標記間冗餘)
lexicon-based(非監督)(詞傾向性->句子傾向性)
基於句子劃分
基於主題劃分
其他階段:
觀點分類、轉換
觀點挖掘
觀點檢索
資源和評估
4.問答系統
1.>問答式檢索系統
檢索方法:
資訊檢索+資訊抽取->簡單易於實現、詞間沒有關係
資訊檢索+模式匹配->特定問題回答、無法實現推理
資訊檢索+自然語言處理技術->實現推理、淺層語義分析
基於統計翻譯模型->依賴訓練語料
2.>社群問答系統(關鍵問題分類)
回答新提交問題相關
相似問題檢索
核心:計算兩個問題的相似度
方法:語言模型
基於詞的翻譯模型
基於短語的翻譯模型
答案質量評估
方法:採用統計機器學習方法(分類、回歸)
核心:選取特徵
5.神經網路與深度學習
1.>難點
引數(多、下層難調、解釋困難)、非凸優化問題(區域性最優解)影響迭代
2.>需求
資源多、資料多、演算法收斂性要高
3.>數學知識
向量(全1向量、one-hot向量)、範數、矩陣、導數、向量導數
常用函式(指示函式、多項式函式、指數函式、對數函式、
logistics(實數對映到(0,1)區間)、
softmax函式(多個標量對映到乙個概率分布)、
)4.>機器學習
主流機器學習演算法:基於統計的方法
決策函式(損失函式判斷好壞)
過擬合(資料少、噪音資料造成,結構風險最小化原則解決)
演算法型別:
有監督學習:
回歸:輸出連續
分類:輸出離散
無監督學習:
引數估計:
梯度下降法
批量梯度下降法(風險函式最小值)
隨機梯度下降法(或增量)
學習率設定:
動量法:增加穩定性
adagrad:迭代次數增加,梯度縮小
adadelta:累積歷史的梯度資訊
線性回歸:
平方損失函式
最小二乘法估計
線性分類
logistic回歸
softmax回歸
感知器:
神經網路只有一層
最簡單的人工神經網路,只有乙個神經元
啟用函式:
sigmoid型函式(logistic函式、tanh函式)、非線性斜面函式
人工神經網路:
前饋神經網路(輸入、輸出維數固定)
多層感知器、單向傳播、有向無環圖表示
反向傳播演算法
訓練過程:
(1)前饋計算每一層的狀態和啟用值
(2)反向傳播計算每一層的誤差
(3)計算每一層引數的偏導值,更新引數
卷積神經網路
特性:區域性鏈結,權值共享,時、空的次取樣
預設窄卷積,不補零
卷積層減少連線數、子取樣層減少特徵對映的神經元個數
迴圈神經網路(處理任意長度的序列)
梯度**或消失解決方案:
長短時記憶神經網路(引入記憶單元)
最新進展:
控制+計算+記憶
傳統神經網路
記憶<-->控制+計算
神經圖靈機
記憶神經網路
動態記憶神經網路
記憶<-->控制<-->計算
神經隨機訪問機
記憶結構
棧、佇列
自然語言處理概述
自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯絡,但又有重要的區別。自然語言...
自然語言處理
自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...
自然語言處理
前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...