用python處理對詞語進行詞性標註

2021-10-25 16:16:35 字數 1769 閱讀 8816

讀取整段文字 

# 導入庫

import jieba.posseg as pseg

import pandas as pd

with open('article1.txt') as fn:

string_data = fn.read() # 使用read方法讀取整段文字

分詞+詞性標註

words = pseg.cut(string_data)  # 分詞

words_pd = pd.dataframe(words, columns=['word', 'type']) # 建立結果資料框

print(words_pd.head(4)) # 展示結果前4條

#顯示結果

word type

0 adobe eng

1 x

2 analytics eng

3 和 c

詞性分類彙總-兩列分類

words_gb = words_pd.groupby(['type', 'word'])['word'].count()

print(words_gb.head(4))

#顯示結果

type word

a 不同 14

不足 2

不通 1

嚴謹 2

name: word, dtype: int64

詞性分類彙總-單列分類

words_gb2 = words_pd.groupby('type').count()

ords_gb2 = words_gb2.sort_values(by='word', ascending=false)

print(words_gb2.head(4))

#顯示結果

word

type

a 116

ad 10

b 19

c 232

選擇特定型別詞語做展示

# 選擇特定型別詞語做展示

words_pd_index = words_pd['type'].isin(['n', 'eng'])

words_pd_index

#顯示結果

0 true

1 false

2 true

3 false

4 true

...

4911 false

4912 false

4913 true

4914 false

4915 false

name: type, length: 4916, dtype: bool

詞性標註

words_pd_select = words_pd[words_pd_index]

print(words_pd_select.head(4))

#顯示結果

word type

0 adobe eng

2 analytics eng

4 webtrekk eng

9 領域 n

用python實現詞語接龍遊戲

由於剛學python沒幾天,又是很簡單的乙個程式,沒有用到物件導向的方法 其實是還沒有學會 通過簡單的過程實現了。幾點說明 為了防止總是重複的回答,電腦先是在庫中找到全部符合條件的詞語,然後隨機選乙個回答。採用tkinter作為gui,曾在vs code下消除了每乙個警告,所以import時把每乙個...

用Python進行檔案批處理例項

import sys import os import re from pyltp import sentencesplitter,segmentor,postagger,parser,namedentityrecognizer,sementicrolelabeller rootdir d user...

用python繪製詞云

開發環境 python2.7 需要的庫 wordcloud,jieba,matplotlib 通過jieba分詞將讀取的文字分成字串,通過wordcloud生成詞云,根據詞頻來顯示特色詞云,讓人更加直觀的明白文字的詞頻最大的文字 在寫 之前我們要引入庫 import sys from wordclo...