ps:筆者會持續更新~
俗話說得好:
做research或者學習某個技能最重要的是要對自己的research要非常熟悉(3mins讓別人聽懂你做的這玩意兒是個啥,contribution在**,讓別人覺得你做的東西有意義)自然語言包括許多分支,主要有:
機器翻譯、自動文摘、資訊檢索、文件分類、問答系統、資訊過濾、資訊抽取、文字挖掘、語音識別等。
其中很多分支都是相互交叉的,大家可以根據自己的興趣專攻某個領域。我的方向則為人工智慧->機器學習->自然語言處理(nlp)->文字挖掘
那麼機器學習在文字挖掘中有哪些應用呢?
(1)話題識別
(2)情感分類
(3)命名實體識別
所謂的命名實體識別是指讓計算機自動識別出自己不認識的詞。比如:「胡歌唱歌非常好聽!」,計算機如何才能知道「胡歌」是乙個詞而不應該是「歌唱」是乙個詞呢?「胡歌」這個詞對於絕大多數詞庫而言都不太可能存在,那麼怎麼能讓機器識別出這個詞並且以最大的可能認為這個詞是正確的呢?我認為在所有的方法中,crf的效果最好,甚至比hmm要好得多。crf又稱條件隨機場,它能夠記錄訓練資料中每個特徵的狀態及其周圍特徵的狀態,當多個特徵同時出現的時候,找出每個特徵在多個特徵組合中最有可能出現的狀態。也就是說,crf以「物以類聚」為基本論點,即大多數詞出現的環境是有規律的,並不是雜亂無章的。選取特徵的時候,以「字」為單位明顯要比以「詞」為單位好很多,因為命名實體的詞是以字為單位才能理解的,比如「陳小春」,我們是以「陳/小/春」的意思來理解的,而不是「陳/小春」或者「陳小/春」。
(4)推薦系統
目前文字挖掘的主要研究領域有:文字結構分析、文字摘要、文字分類、文字聚類、文字關聯分析、分布分析和趨勢**等。
下面來說一說學習人工智慧->機器學習->自然語言處理(nlp)->文字挖掘都需要哪些知識儲備:
這裡不僅僅是文字挖掘方向,整個nlp領域內其實都是適用的,只不過某個特殊領域會有細微的技術差別,但整體入門,還無需那麼深入嘞~
如何入門自然語言處理
直接做文字分類這個專案,具體的思路很簡單。把原始文字變成向量,然後呼叫sklearn庫里的分類演算法,就可以實現文字分類了!如何把文字轉換為文字向量呢?看這篇文章即可,手把手地教你把中文文字變成向量 附 盡量地去理解 的實現思路,以後遇到類似問題能不能轉換成相應的資料格式,繼續用這些 操作。完整的實...
自然語言處理入門
1 首先,將原文本拆分為句子,在每個句子中過濾掉停用詞 可以不選 並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。2 每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,wn.則w1,w2,wk w2,w3,wk 1 w3,w4,wk ...
自然語言處理
自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...