1.資料探勘與文字挖掘的區別(結構化資料,非結構化資料)
2.分詞方案(基於字串匹配,基於統計)
3.中英文預處理區別
英文:中文:
4.tf-idf缺點(缺點是有時候用詞頻來衡量文章中的乙個詞的重要性不夠全面,有時候重要的詞出現的可能不夠多,而且這種計算無法體現位置資訊,無法體現詞在上下文的重要性。如果要體現詞的上下文結構,那麼你可能需要使用word2vec演算法來支援。)
5.文字相似度計算(向量空間表示後計算余弦值)
6.如何用 word2vec 計算兩個句子之間的相似度?
7.歐氏距離和余弦相似度的區別是什麼?
在文字聚類中,一般是用歐氏距離還是余弦值?從stackoverflow這個帖子看,對於稀疏向量(文字向量顯然是稀疏的),一般用cosine比較好clustering - euclidean distance is usually not good for sparse data?
8.樸素貝葉斯分類器和一般的貝葉斯分類器有什麼區別
9.文字降維(hash trick)
10.主題模型(gg)
機器學習 文字特徵工程
import numpy as np import pandas as pd import jieba text 想和不想.是兩回事 好聽的話不要聽,沒感覺到就是沒有 終有弱水替滄海,再無相思寄巫山 for i in range len text text i join jb.lcut text i...
機器學習《文字特徵提取》
本次任務 將文字特徵提取轉換成模型能用的資料 font import pandas as pd 本次資料來自json檔案 df pd.read json wuxia.car.json encoding utf 8 這是取出的資料 將資料轉換成list型別 dictvectorizer 處理資料型別是...
機器學習 文字檔案讀取
a和a w和r有什麼區別?1.r 開啟唯讀檔案,該檔案必須存在。2.w 開啟只寫檔案,若檔案存在則該檔案內容覆蓋。若檔案不存在則建立該檔案。3.a 只能寫,若檔案不存在,則會建立該檔案,如果檔案存在,寫入的資料會被加到檔案尾。a 讀寫,若檔案不存在,則會建立該檔案,如果檔案存在,寫入的資料會被加到檔...