定義檔案路徑
os.chdir(
'..'
)os.chdir(
)用glob把裡面檔名都拿到 並賦值給filenames5
filenames5 = glob.glob(
'*.xlsx'
)filenames5
讀取其中的bai的資料
)轉換為列表為後邊處理文字使用
接下來要把這些資料洗乾淨,然後再做 詞云啊 dtm啊 看需要是否建模啊,等等這樣的思路展開。
bai61 =
[re.sub(r'[^a-z\u4e00-\u9fa5]+'
,' '
,i,flags=re.i)
for i in bai6]
r表示宣告是原始字串,避免與轉義字元衝突,平時經常放上
表示裡面的關係是取 或 的關係
^ 表示 非 的意思 就是除了中文和英文的意思
a-z\u4e00-\u9fa5 固定表示 中文和英文的 **
' ',是替換成空格
i 是準備替換的資料
flages=re.i 表示大小寫都算
正規表示式
執行完後 資料中的除了中文英文外的其他東西都沒有了:
,'蟑螂'])
自己按業務增加 停用詞
bai62 =
# 定義乙個列表
for i in bai61:
#bbai61是保留中英文後的列表
seg0 = pd.series(jieba.lcut(i)
)# 用series 後邊好做布林索引 這一步是 用i在bai61這個列表裡面 去迴圈每一句話 然後用jieba分詞
ind1 = pd.series(
[len
(j)for j in seg0]
)>
1# [len(j) for j in seg0]是對分好詞的seg0 裡面的 做判斷 是否長度大於 1 去掉等於1的詞
seg1 = seg0[ind1]
# 布林索引 得到seg1 去掉了長度小於1的
ind2 =
~seg1.isin(pd.series(stopwords)
)# ~ 符號表示取反的意思 isin判斷 seg1裡面的詞是否在停用詞中 返回布林值 取反就是要不在 停用詞中的
seg2 =
list
(seg1[ind2]
.unique())
# 分好詞 去掉長度小於1的 seg1 進行布林索引(去停用詞) 和 去重 得到 列表 seg2
iflen
(seg2)
>
0:
列表生成式子,把乙個列表中的列表,都變成字串,生成在一張大列表中:
bai63 =
[y for x in bai62 for y in x]
bai63
# 或如下方式:
計算詞頻:
按照詞云包的格式
組合多個字元為乙個長字元,空格分隔
設定字型的路徑,不然最後顯示不出來
font=r'c:\windows\fonts\msyh.ttc'
放入詞云包
wc = wordcloud(font_path=font)
.generate(bai64)
將圖形畫出來
將詞雲圖匯出
wc.to_file(
'd:/data/python/情詞雲.png'
)
「電商評論觀點挖掘」 比賽總結
一 序列標註部分 序列標註思路 採用的bio 資料標註模式 基於bert 或 bi lstm crf 進行 模型訓練 和 任務 生成後的結果合併 到 picklabel test.txt 二 觀點 屬性 分類 模型 1.利用 標註處理工具,將提取結果 格式化 2.根據 提取結果 在原文本中進行抽取 ...
電商APP製作應該怎麼玩?
apicloud 標準化技術定製,高效低投入產效益 官方簽約保上線,專案監理更直接 apicloud 作為平台方,與企業客戶直接簽約。apicloud cto親自為專案進行評估並指派資深專案監理,嚴格把控專案質量和開發周期。官方承諾每乙個專案順利上線至蘋果和各大安卓應用市場。專業的管理體系,精確專案...
跨境電商獨立站怎麼做
獨立站一般是指商家自己搭建的跨境電商 跨境電商獨立站擁有獨立網域名稱,內容 資料 權益私有,脫離第三方電商平台束縛,不僅可以進行多個渠道 多個方式的網路 和推廣,並且推廣所帶來的流量 品牌知名度等都屬於商家自己 做跨境電商的朋友受平台之苦久矣!想必大家對亞馬遜等平台封號事件和國內賣家內卷行為的深惡痛...