本文參考部落格而來
「` import re #正規表示式
from bs4 import beautifulsoup #html標籤處理
import pandas as pd
########資料匯入
train = pd.read_csv(『f: learning//tensorflow//bynet//bags_of_popcorn//kaggle//labeledtraindata header=0, delimiter=」\t」, quoting=3)
test = pd.read_csv(『f: learning//tensorflow//bynet//bags_of_popcorn//kaggle//testdata header=0, delimiter=」\t」, quoting=3 )
y_train = train[『sentiment』]
特徵處理
from sklearn.feature_extraction.text import tfidfvectorizer as tfiv
tfv = tfiv(min_df=3, max_features=none, strip_accents=』unicode』, analyzer=』word』,token_pattern=r』\w』, ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1, stop_words = 『english』)
x_all = train_data + test_data
len_train = len(train_data)
tfv.fit(x_all)
x_all = tfv.transform(x_all)
x = x_all[:len_train]
x_test = x_all[len_train:]
##########################建模
from sklearn.*****_bayes import multinomialnb as mnb
model_nb = mnb()
model_nb.fit(x, y_train) #特徵資料直接灌進來
mnb(alpha=1.0, class_prior=none, fit_prior=true)
from sklearn.cross_validation import cross_val_score
import numpy as np
print(「多項式貝葉斯分類器20折交叉驗證得分: 「, np.mean(cross_val_score(model_nb, x, y_train, cv=20, scoring=』roc_auc』)))
貝葉斯方法及電影評價例項
kaggle imdb影評者情感褒貶分類問題,kaggle位址為 原文使用的方法是word2vec將詞語轉為詞向量,再用deep learning方式處理,我們這裡使用tf idf作為特徵,用最簡單的樸素貝葉斯和邏輯回歸嘗試 import re 正規表示式 from bs4 import beaut...
《貝葉斯方法 概率程式設計與貝葉斯推斷》 1 8答案
1 計算後驗的均值 即後驗的期望值 我們只需要用到樣本和a.mean函式。print lambda 1 samples.mean print lambda 2 samples.mean 2 給定兩個數a 和 b,相對增長可以由 a b b給出。在我們的例項中,我們並不能確定 1和 2的值是多少。通過...
《貝葉斯方法 概率程式設計與貝葉斯推斷》一導讀
貝葉斯方法 概率程式設計與貝葉斯推斷 貝葉斯方法是一種常用的推斷方法,然而對讀者來說它通常隱藏在乏味的數學分析章節背後。關於貝葉斯推斷的書通常包含兩到三章關於概率論的內容,然後才會闡述什麼是貝葉斯推斷。不幸的是,由於大多數貝葉斯模型在數學上難以處理,這些書只會為讀者展示簡單 人造的例子。這會導致貝葉...