牛客網自然語言處理(NLP)專項練習總結

2021-10-03 15:28:15 字數 4044 閱讀 1314

梯度消失

啟用函式

1.sigmoid、tanh和relu

機器學習演算法

1.k-means

em演算法

svm決策樹

1.決策樹有哪些常用的啟發函式

卷積優化演算法

nlp相關

3.資料平滑

4.資料預處理

句子結構

相關性1.確定相關性的方法

依存分析和句法分析

命名實體識別

知識圖譜

文字相似度計算

遺傳演算法

其他正則化 dropoutbatch_normalization提前終止訓練

dropout作用於每份小批量訓練資料,由於其隨機丟棄部分神經元的機制,相當於每次迭代都在訓練不同結構的神經網路

新增新特徵 減少正則化係數

(×)正則化方法 (×)整合學習方法:處理過擬合

控制網路深度預訓練+微調使用relu啟用函式 採用batch_normalization 使用殘差結構 使用lstm

從計算的角度,sigmoid 和 tanh 啟用函式均需要計算指數,複雜度高,而relu 只需要乙個閾值就可得到啟用值。

relu 的非飽和性可以有效的解決梯度消失問題,提供相對寬的啟用邊界

relu 的單側抑制提供了網路的稀疏表達能力

不能自動識別類的個數,隨機挑選初始點為中心點計算。

em是一種迭代演算法,用於含有隱變數的概率引數模型的最大似然估計或極大後驗概率估計。最大優點是簡單和穩定,但與梯度下降一樣,容易陷入區域性最優

em演算法

svm對缺失資料敏感,所以雜訊魯棒性不是很好。雜訊魯棒性好要數神經網路。

最大資訊增益 最大資訊增益率 最大基尼係數

決策樹都有哪些演算法?

卷積操作的本質特性包括稀疏互動引數共享

梯度下降法 牛頓法 bfgs adam 中bfgs最快

lstm的遺忘門使用的是什麼啟用函式? sigmoid

【譯】理解lstm(通俗易懂版)

seq2seq模型在解碼時可以使用貪心法或beam search方法。

嚴格意義上來講,word2vec並不是無監督學習。應該叫半監督學習(semi-supervised),因為雖然人類不用手工標註,但是本質上模型還是有類別學習,有反向傳播的過程的。

無監督與監督學習的區別在於乙個無教學值,乙個有教學值。但是,有人認為他們的區別在於一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。

1、cbow 2、skig-gram 每種都有兩種策略(加速優化策略):1、負取樣 2、層級softmax。

層級softmax,使用了哈夫曼樹,優化計算概率效率。

負取樣不使用哈夫曼樹,而是利用簡單的隨機取樣,這種用少量雜訊詞彙來估計的方法,類似蒙特卡洛方法。這使得不需要計算完整的概率模型,只需要訓練乙個二元分類模型,用來區分真實的目標詞彙和取樣的雜訊詞彙。提高訓練速度,改善所得詞向量的質量。

在統計語言模型中,通常以概率的形式描述任意語句的可能性,利用最大相似度估計進行度量,對於一些低頻詞,無論如何擴大訓練資料,出現的頻度仍然很低,資料平滑可以解決這一問題。

自然語言處理:盤點一下資料平滑演算法

大資料處理平滑演算法:good-turing估計

因為文字資料在可用的資料中是非常無結構的,它內部會包含很多不同型別的噪點,所以要做資料預處理。以下不是自然語言資料預處理過程的是:

詞彙規範化 物件標準化 雜訊移除 (×)詞彙關係統一化

自然語言處理時,通常的文字清理流程是什麼?

中文文字挖掘預處理流程總結

詞語消歧 未登入詞識別 詞性標註

(×)關係識別 (×)句法分析 (×)意圖識別 (×)槽位填充

在分析句子結構時,句子的內部組織結構用樹來表示,組成的結構具有顯著的特點是:

遞迴 中心詞 修飾語 (×)迴圈

在大規模的語料中,挖掘詞的相關性是乙個重要的問題。以下哪乙個資訊不能用於確定兩個詞的相關性。

互資訊 卡方檢驗 最大似然比 (×)最大熵

最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的準則,也稱為最大資訊原理。隨機量的概率分布是很難測定,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變數的分布,是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在乙個敏感詞裡,這樣可以降低風險。在資訊處理中,這個原理同樣適用。在數學上,這個原理稱為最大熵原理。

最大熵代表了整體分布的資訊,通常具有最大熵的分布作為該隨機變數的分布, 不能體現兩個詞的相關性,但是卡方是檢驗兩類事物發生的相關性。

可以從新聞文字資料中分析出名詞短語,動詞短語,主語的技術是? 依存分析和句法分析

1.命名實體識別是指出文字中的人名、地名等專有名詞和時間等,其中有有監督的命名實體識別和無監督的命名實體識別,下列選項哪些是屬於有監督的學習方法:

決策樹 隱馬爾可夫模型 支援向量機 (×)字典法

知識圖譜中的三元組遵從一種三階謂詞邏輯的表達形式。(×)

命題邏輯和謂詞邏輯是人工智慧領域使用最早的知識表示方法,命題邏輯定義了具有真假值的原子命題,並通過 或 且 非 蘊含 當且僅當 等邏輯連線符將多個原子命題組合成復合命題;

一階謂詞邏輯在命題邏輯的基礎上引入了 全稱量詞 :任何 ,和存在量詞 ,使得一階謂詞邏輯可以量化實體概念,比如 對於所有的海豚 都有背鰭 ,這個 所有的 就是全稱量詞;

二階謂詞邏輯可以量化集合,

三階謂詞邏輯可以量化集合的集合,高階謂詞邏輯 依此類推 。 —參考 趙軍《知識圖譜》高等教育出版社

一階謂詞邏輯優點:

結構性,能把事物的屬性以及事物的各種語義聯想顯式的表達出來。

嚴密性,有形式化的語法和語義,以及相關的邏輯推理。

可實現性,可以轉化為計算機內部形式,以便使用演算法實現。

一階謂詞缺點:

有限的可用性,一階邏輯的邏輯歸結只是半可判定性的。

無法表示不確定性知識。

文字資訊檢索的乙個核心問題是文字相似度計算,將查詢條件和文字之間的相似程度數值化,從而方便比較。當文件和查詢都表示成向量時,可以利用向量的內積的大小近似地表示兩個向量之間的相關程度。

設有兩個文件和查詢抽取特徵和去除停用詞後分別是:

文件d1: a、b、c、a、f、b、a、f、h

文件d2: a、c

查詢q: a、c、a

特徵項集合為

如果採用二值向量表示,那麼利用內積法計算出q和d1、d2的相似度分別是( 2,2)

解釋: 主要計算是否出現,並不涉及出現幾次。

考察的是文字的詞集表示,注意與詞袋表示區別。把特徵項看作字典,如果文件中的詞在特徵項**現則為1,否則為0.以題目為例,將文件和查詢都表示成8維的向量。具體來說,d1的表示為[1,1,1,0,0,1,0,1],也就是對應於特徵項中的每一項,分別在文件1中查詢,如果文件1**現,那麼該位置1,否則為0.同理,文件2的向量表示為[1,0,1,0,0,0,0,0],查詢項的表示為[1,0,1,0,0,0,0,0],然後分別做內積即可。注意詞集模型並不考慮詞在文字**現的頻率。

NLP自然語言處理

第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...

NLP自然語言處理相關

近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...