自然語言處理系列 開篇

2021-09-27 11:34:44 字數 1300 閱讀 6492

前幾天在網上意外搜到了自然語言處理(natural language processing, nlp)的學習路線圖(roadmap,點這裡),一共四張,分別介紹了概率&統計機器學習文字挖掘(nlp背景)和基於深度學習的自然語言處理,仔細看下來,既欣喜又慚愧。欣喜的是地圖內容全面而有條理,通篇下來幾無廢話又幾乎涵蓋了一名nlp工程師應該具備的所有素養;慚愧的是自己號稱是研究自然語言處理的,但是還有大量的內容理解不到位甚至是沒聽過。因此決定按圖索驥,對照著roadmap將這些內容進行全面的學習、梳理,既可以充實、提高自己,又能夠寓他人。

細數下來,自己的博士生涯還有近兩年時光,要完成所有內容的梳理時間屬實緊張;而且nlp本身也在迅速地發展,自知以有涯逐無涯確實有些自不量力。但是我相信,每天進步一點也是進步,何況我還有幾十年的研究生涯。

培養一棵大樹,最好是在十年前,其次是現在。

如上所言,這個系列的起因是那幾張學習路線圖,因此本系列的框架也會按照學習路線圖來編排,共分為上述所言四個部分。 我會定期進行更新,每次更新選擇四部分中某一部分的某一塊內容,由淺入深。學習路線圖雖是好的,但也有些不合適的地方,因此我不會照本宣科,必要時會對內容進行調整、增加和修改;隨著內容的深入,全部內容的體系框架也會更加完整。也可能有朝一日能整理成冊,以饗讀者。

首先奉上本部分的學習路線圖:

概率&統計有五部分內容,分別是概率論基礎(basic)、貝葉斯統計(baysian)、取樣(sampling)、資訊理論(information theory)和基本的模型(model)。概率論基礎部分包含一些基本術語和常用的分布,是眾多學習演算法的基礎;貝葉斯統計是現代機器學習的基石,是統計學與機器學習的聯絡的重要紐帶;取樣提供了解決很多複雜問題的新思路;資訊理論是解決機器學習問題的重要工具;基本的模型主要包含判別模型(discrimination)和生成模型(gerenative)兩大類,理解了這兩類模型,對日後更加複雜的機器學習演算法/模型的學習大有裨益。

先奉上學習路線圖,具體的內容會逐步完善:

先奉上學習路線圖,具體的內容會逐步完善:

先奉上學習路線圖,具體的內容會逐步完善:

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...