import numpy as np
import pandas as pd
import jieba
text =
['想和不想.是兩回事'
,'好聽的話不要聽,沒感覺到就是沒有'
,'終有弱水替滄海,再無相思寄巫山'
]for i in
range
(len
(text)):
text[i]
=' '
.join(jb.lcut(text[i]))
text
['想 和 不想 . 是 兩回事'
,'好聽 的話 不要 聽 , 沒 感覺 到 就是 沒有'
,'終 有 弱水 替 滄海 , 再 無 相思 寄 巫山'
]
bow_text =
for t in text:
t = t.replace(
',',
' ')
.replace(
'.',
' ')
.split(
' ')
new_t =
for w in t:
iflen
(w)>1:
bow_text
[
['不想'
,'兩回事'],
['好聽'
,'的話'
,'不要'
,'感覺'
,'就是'
,'沒有'],
['弱水'
,'滄海'
,'相思'
,'巫山'
]]
wordsets =
for i in bow_text:
wordsets+=i
wordsets=
set(wordsets)
wordsets
統計text中每個元素中每個單詞出現次數worddicts =
for list_ in bow_text:
worddict=
dict
.fromkeys(wordsets,0)
for word in list_:
worddict[word]+=1
worddicts[,
,]
將結果轉化成dataframeworddicts=pd.dataframe(worddicts)
機器學習《文字特徵提取》
本次任務 將文字特徵提取轉換成模型能用的資料 font import pandas as pd 本次資料來自json檔案 df pd.read json wuxia.car.json encoding utf 8 這是取出的資料 將資料轉換成list型別 dictvectorizer 處理資料型別是...
機器學習 文字特徵值表示
對資料最簡單的編碼之一是使用單詞計數,對於每個短語,僅僅計算其中每個單詞出現的次數,在sklearn中,使用countvectorizer就可以輕鬆解決!看 文字特徵表示 from sklearn.feature extraction.text import countvectorizer samp...
機器學習 特徵工程字典特徵和文字特徵抽取
mysql 效能瓶頸,讀取速度 pandas 讀取工具 numpy釋放gil cpython 協程 sklearn 特徵值 目標值 重複值 不需要進行去重 缺失值 特殊處理 將原始資料轉換為更好代表 模型的潛在問題的特徵的過程,從而提高對未知資料的 準確性 classification 分類 reg...