###############################
#自然語言文字預處理
###############################
# 導入庫
import pandas as pd
import jieba # 結巴分詞
from sklearn.feature_extraction.text import tfidfvectorizer # 基於tf-idf的詞頻轉向量庫
# 分詞函式
def jieba_cut(string):
word_list = # 建立空列表用於儲存分詞結果
seg_list = jieba.cut(string) # 精確模式分詞
for word in seg_list: # 迴圈讀取每個分詞
return word_list
# 讀取自然語言檔案
fn = open('text.txt',encoding='utf-8')
string_lines = fn.readlines()
fn.close()
# 中文分詞
seg_list = # 建立空列表,用於儲存所有分詞結果
for string_line in string_lines: # 讀取每行資料
each_list = jieba_cut(string_line) # 返回每行的分詞結果
for i in range(5): # 列印輸出第一行的前5條資料
print (seg_list[1][i])
# word to vector
stop_words = [u'\n', u'/', u'「', u'」', u'的', u',', u'和', u'是', u'隨著', u'對於', u'對', u'等', u'能', u'都', u'。', u'、',
u'中', u'與', u'在', u'其'] # 自定義要去除的無用詞
vectorizer = tfidfvectorizer(stop_words=stop_words, tokenizer=jieba_cut) # 建立詞向量模型
x = vectorizer.fit_transform(string_lines) # 將文字資料轉換為向量空間模型
vector = vectorizer.get_feature_names() # 獲得詞向量
vector_value = x.toarray() # 獲得詞向量值
vector_pd = pd.dataframe(vector_value, columns=vector) # 建立用於展示的資料框
print (vector_pd.head(1)) # 列印輸出第一條資料
ViewPager的乙個小例子
早就聽說有這個viewpager控制項,專案要中使用的也多,viewpager也是更新到了viewpager2。但是我一直沒有使用過,現在記錄一下簡單的使用方法。它的使用和recycleview listview的使用大同小異。也需要介面卡和監聽事件。相信用過這些控制項的同學一定不陌生。上 acti...
while迴圈的乙個小例子
我國最高山峰是珠穆朗瑪峰 8848m,我現在有一張足夠大的紙張,厚度為 0.01m。請問,我摺疊多少次,就可以保證厚度不低於珠穆朗瑪峰的高度?分析 1 統計思想 定義統計變數 2 最高山峰是珠穆朗瑪峰 8848m 最終厚度 有一張足夠大的紙張,厚度為 0.01m 初始厚度 3 厚度不低於珠穆朗瑪峰的...
minixml使用的乙個小例子
xml檔案 version 2.0 width 1920 height 1080 width 1920 height 1080 textex 命令按鈕1 textex 電器1 textex 電器2 commandbutton1 textex 命令按鈕2 textex 命令按鈕3 page width...