結巴文字分詞--文字序列化處理
import jieba
from sklearn.model_selection import train_test_split
from keras.preprocessing.text import tokenizer
from keras.preprocessing.sequence import pad_sequences
首先對語句進行分析: x_text = [' '.join(jieba.cut(x)) for x in data]
x_text = [
'整個 感覺 除了 送貨 師傅 新手 來晚 了 外 , 其他 都 很 好'
, '京東 自營 很 不錯 ,'
, '外觀 手感 使用 都 不錯 , 好 !'
]tokenizer = tokenizer(filters='!"#$%&()*+,-./:;<=>?@[\\]^_`~\t\n',lower=true,split=" ")
tokenizer.fit_on_texts(x_text)
vocab = tokenizer.word_index
x_train, x_test, y_train, y_test = train_test_split(x_text, y, test_size=0.2, random_state=2017)
x_train_word_ids = tokenizer.texts_to_sequences(x_train)
x_test_word_ids = tokenizer.texts_to_sequences(x_test)
x_train_padded_seqs = pad_sequences(x_train_word_ids, maxlen=64)
x_test_padded_seqs = pad_sequences(x_test_word_ids, maxlen=64)
# mlp-onehot
x_train_matrix = tokenizer.sequences_to_matrix(x_train_word_ids, mode='binary')
x_test_matrix = tokenizer.sequences_to_matrix(x_test_word_ids, mode='binary')
句子分割 text_to_word_sequence
keras.preprocessing.text.text_to_word_sequence(text, filters=base_filter(), lower=true, split=」 「)
本函式將乙個句子拆分成單詞構成的列表
text:字串,待處理的文字
filters:需要濾除的字元的列表或連線形成的字串,例如標點符號。預設值為base_filter(),包含標點符號,製表符和換行符等
lower:布林值,是否將序列設為小寫形式
split:字串,單詞的分隔符,如空格
ont-hot編碼
keras.preprocessing.text.one_hot(text, n, filters=base_filter(), lower=true, split=」 「)
本函式將一段文字編碼為one-hot形式的碼,即僅記錄詞在詞典中的下標。
【tips】 從定義上,當字典長為n時,每個單詞應形成乙個長為n的向量,其中僅有單詞本身在字典中下標的位置為1,其餘均為0,這稱為one-hot。為了方便起見,函式在這裡僅把「1」的位置,即字典中詞的下標記錄下來。
分詞器tokenizer
keras.preprocessing.text.tokenizer(num_words=none, filters=base_filter(),lower=true, split=」 「)
tokenizer是乙個用於向量化文字,或將文字轉換為序列(即單詞在字典中的下標構成的列表,從1算起)的類。
與text_to_word_sequence同名引數含義相同
nb_words:none或整數,處理的最大單詞數量。若被設定為整數,則分詞器將被限制為處理資料集中最常見的nb_words個單詞
序列化(序列化)
原書上翻譯為序列化,msdn翻譯為序列化 作用 當需要儲存,或者網路傳輸 remoting時,資料 物件或值 需要序列化 類似於打包傳輸檔案。system.serializableattribute 序列化是指儲存和獲取磁碟檔案 記憶體或其他地方中的物件。在序列化時,所有的例項資料都儲存到儲存介質上...
資料序列化和反序列化
序列化 encoding 把python物件編碼轉換成json字串。反序列化 decoding 把json格式字串解碼為python物件。python中序列化通常有兩種方式 pickle模組和json模組 pickle模組的使用 對於大多數應用程式來講,dump 和load 函式的使用就是你使用pi...
序列化(模型序列化 序列化巢狀)
from rest framework import serializers from meituan.models import merchant,class merchantserializer serializers.modelserializer class meta model merch...