機器學習 文字特徵工程

2021-10-03 07:43:57 字數 1417 閱讀 7838

import numpy as np

import pandas as pd

import jieba

text =

['想和不想.是兩回事'

,'好聽的話不要聽,沒感覺到就是沒有'

,'終有弱水替滄海,再無相思寄巫山'

]for i in

range

(len

(text)):

text[i]

=' '

.join(jb.lcut(text[i]))

text

['想 和 不想 . 是 兩回事'

,'好聽 的話 不要 聽 , 沒 感覺 到 就是 沒有'

,'終 有 弱水 替 滄海 , 再 無 相思 寄 巫山'

]

bow_text =

for t in text:

t = t.replace(

',',

' ')

.replace(

'.',

' ')

.split(

' ')

new_t =

for w in t:

iflen

(w)>1:

bow_text

[

['不想'

,'兩回事'],

['好聽'

,'的話'

,'不要'

,'感覺'

,'就是'

,'沒有'],

['弱水'

,'滄海'

,'相思'

,'巫山'

]]

wordsets =

for i in bow_text:

wordsets+=i

wordsets=

set(wordsets)

wordsets

統計text中每個元素中每個單詞出現次數
worddicts =

for list_ in bow_text:

worddict=

dict

.fromkeys(wordsets,0)

for word in list_:

worddict[word]+=1

worddicts[,

,]

將結果轉化成dataframe
worddicts=pd.dataframe(worddicts)

機器學習《文字特徵提取》

本次任務 將文字特徵提取轉換成模型能用的資料 font import pandas as pd 本次資料來自json檔案 df pd.read json wuxia.car.json encoding utf 8 這是取出的資料 將資料轉換成list型別 dictvectorizer 處理資料型別是...

機器學習 文字特徵值表示

對資料最簡單的編碼之一是使用單詞計數,對於每個短語,僅僅計算其中每個單詞出現的次數,在sklearn中,使用countvectorizer就可以輕鬆解決!看 文字特徵表示 from sklearn.feature extraction.text import countvectorizer samp...

機器學習 特徵工程字典特徵和文字特徵抽取

mysql 效能瓶頸,讀取速度 pandas 讀取工具 numpy釋放gil cpython 協程 sklearn 特徵值 目標值 重複值 不需要進行去重 缺失值 特殊處理 將原始資料轉換為更好代表 模型的潛在問題的特徵的過程,從而提高對未知資料的 準確性 classification 分類 reg...