自然語言處理入門

2021-08-16 00:13:27 字數 1072 閱讀 6913

(1)首先,將原文本拆分為句子,在每個句子中過濾掉停用詞(可以不選),並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。

(2)每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,…, wn.

則w1,w2, …, wk、w2,w3,…,wk+1、w3,w4,…,wk+2等都是乙個視窗,在乙個視窗內任意兩個單詞之間存在一條無向無權的邊。

import codecs  

from textrank4zh import textrank4keyword, textrank4sentence

text = codecs.open('d://data/tmall/origin_tmall_review.txt', 'r', 'utf-8').read()

tr4w = textrank4keyword()

tr4w.analyze(text=text, lower=true, window=2)

for item in tr4w.get_keywords(10, word_min_len=1):

print("{} 出現的頻率為:".format(item.word, item.weight))

print( '關鍵短語:' )

for phrase in tr4w.get_keyphrases(keywords_num=10, min_occur_num=5):

print(phrase)

tr4s = textrank4sentence()

tr4s.analyze(text=text, lower=true, source = 'all_filters')

print()

print( '摘要:' )

for item in tr4s.get_key_sentences(num=3):

#index是語句在文字中位置,weight是權重

print("第{}句出現的頻率為:,內容為:{}".format(item.index, item.weight, item.sentence))

自然語言處理入門 中文分詞原理

1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2 中文分詞方法介紹 現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分...

自然語言處理入門心得 書籍 課程推薦

mit 的 natural language processing stanford 的cs224n natural language processing stanford 的 cs224d deep learning for natural language processing 講述深度學習在...

如何入門自然語言處理

直接做文字分類這個專案,具體的思路很簡單。把原始文字變成向量,然後呼叫sklearn庫里的分類演算法,就可以實現文字分類了!如何把文字轉換為文字向量呢?看這篇文章即可,手把手地教你把中文文字變成向量 附 盡量地去理解 的實現思路,以後遇到類似問題能不能轉換成相應的資料格式,繼續用這些 操作。完整的實...