讀取整段文字
# 導入庫
import jieba.posseg as pseg
import pandas as pd
with open('article1.txt') as fn:
string_data = fn.read() # 使用read方法讀取整段文字
分詞+詞性標註
words = pseg.cut(string_data) # 分詞
words_pd = pd.dataframe(words, columns=['word', 'type']) # 建立結果資料框
print(words_pd.head(4)) # 展示結果前4條
#顯示結果
word type
0 adobe eng
1 x
2 analytics eng
3 和 c
詞性分類彙總-兩列分類
words_gb = words_pd.groupby(['type', 'word'])['word'].count()
print(words_gb.head(4))
#顯示結果
type word
a 不同 14
不足 2
不通 1
嚴謹 2
name: word, dtype: int64
詞性分類彙總-單列分類
words_gb2 = words_pd.groupby('type').count()
ords_gb2 = words_gb2.sort_values(by='word', ascending=false)
print(words_gb2.head(4))
#顯示結果
word
type
a 116
ad 10
b 19
c 232
選擇特定型別詞語做展示
# 選擇特定型別詞語做展示
words_pd_index = words_pd['type'].isin(['n', 'eng'])
words_pd_index
#顯示結果
0 true
1 false
2 true
3 false
4 true
...
4911 false
4912 false
4913 true
4914 false
4915 false
name: type, length: 4916, dtype: bool
詞性標註
words_pd_select = words_pd[words_pd_index]
print(words_pd_select.head(4))
#顯示結果
word type
0 adobe eng
2 analytics eng
4 webtrekk eng
9 領域 n
用python實現詞語接龍遊戲
由於剛學python沒幾天,又是很簡單的乙個程式,沒有用到物件導向的方法 其實是還沒有學會 通過簡單的過程實現了。幾點說明 為了防止總是重複的回答,電腦先是在庫中找到全部符合條件的詞語,然後隨機選乙個回答。採用tkinter作為gui,曾在vs code下消除了每乙個警告,所以import時把每乙個...
用Python進行檔案批處理例項
import sys import os import re from pyltp import sentencesplitter,segmentor,postagger,parser,namedentityrecognizer,sementicrolelabeller rootdir d user...
用python繪製詞云
開發環境 python2.7 需要的庫 wordcloud,jieba,matplotlib 通過jieba分詞將讀取的文字分成字串,通過wordcloud生成詞云,根據詞頻來顯示特色詞云,讓人更加直觀的明白文字的詞頻最大的文字 在寫 之前我們要引入庫 import sys from wordclo...