統計自然語言處理書籍閱讀心得四

2021-08-18 13:45:54 字數 1719 閱讀 9597

1:困惑度:

我們通常用困惑度(perplexity)來代替交叉熵 衡量語言模型的好壞。同樣,語言模型設計的任務就是尋找困惑度最小的模型,使其最接 近真實語言的情況。在自然語言處理中,我們所說的語言模型的困惑度 通常是指語言模型對於測試資料的困惑度。一般情況下將所有資料分成 兩部分,一部分作為訓練資料,用於估計模型的引數;另一部分作為測 試資料,用於評估語言模型的質量。

2:雜訊通道模型

其目標就是優化雜訊通道中訊號傳 輸的吞吐量和準確率,其基本假設是乙個通道的輸出以一定的概率依賴 於輸入。一般情況下,在訊號傳輸的過程中都要進行雙重性處理:一方 面要對編碼進行壓縮,盡量消除所有的冗餘;另一方面又要通過增加一 定的可控冗餘以保障輸入訊號經過雜訊通道傳輸以後可以很好地恢復原 狀。這樣,資訊編碼時要盡量少占用空間,但又必須保持足夠的冗餘以 便能夠檢測和校驗傳輸造成的錯誤。通道輸出訊號解碼後應該盡量恢復 到原始輸入狀態。過程如下圖:

3:支援向量機

支援向量機(support vector machine, svm)〔1〕是近幾年來發展起 來的新型分類方法,是在高維特徵空間使用線性函式假設空間的學習系 統,在分類方面具有良好的效能。近幾年來,支援向量機在模式識別、 知識發現等理論研究,計算機視覺與影象識別、生物資訊學以及自然語 言處理等相關技術研究中得到了廣泛應用。在自然語言處理中,svm廣 泛應用於短語識別、詞義消歧、文字自動分類和資訊過濾等方面。

3-1:線性分類:

通過執行如下操作進行:當f(x)≥0 時,將輸入x=(x1,x2,…,xn)′賦予正類,否則,將其賦予負類。當 f(x)(x∈x)是線性函式時,f(x)可以寫成如下形式:

目前個人理解的是,先用兩條平行線使正負集分隔開同時時這兩條線之間距離最大,然後最優超平面就是這兩條線中間的那條平行線。

3-2:線性不可分:

建立非線性分類器需要分兩步:首先使用乙個非線性對映函式將資料變換到乙個特徵空間f,然後在這個特徵空間上使用線性分類器。線性分類器的乙個重要性質是可以表示成對偶形式,這意味著假設 可以表達為訓練點和線性組合,因此,決策規則(分類函式)可以用測 試點和訓練點的內積來表示:

其中,l是樣本數目;αi是個正值導數,可通過學習獲得;yi為類別標 記。如果有一種方法可以在特徵空間中直接計算內積,就像在原始輸入點的函式中一樣,那麼,就有可能將兩個步 驟融合到一起建立乙個非線性分類器。這樣,在高維空間內實際上只需 要進行內積運算,而這種內積運算是可以利用原空間中的函式實現的, 我們甚至沒有必要知道變換的形式。這種直接計算的方法稱為核 (kernel)函式方法。

3-3:核函式的構造:

核是乙個函式k,對所有x, z∈x,滿足:

同時核函式要適合某個特徵空間必須是對稱的,即

統計自然語言處理書籍閱讀心得六

自動機理論 1 有限自動機,有限自動機又分為確定性有限自動機 definite automata,dfa 和不確定性有限自動機 non definite automata,nfa 兩種。其中,是輸入符號的有窮集合 q是狀態的有限集合 q0 q是初始狀態 f是終止狀態集合,f q 是q與 的直積 就是...

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

自然語言處理入門心得 書籍 課程推薦

mit 的 natural language processing stanford 的cs224n natural language processing stanford 的 cs224d deep learning for natural language processing 講述深度學習在...