機器學習實戰2 時光網評論分析

#
coding: utf-8
#in[74]:
import
sys  
reload(sys)  
sys.setdefaultencoding(
'utf8')
import
graphlab
import
datetime
#in[75]:
graphlab.set_runtime_config(
'graphlab_default_num_pylambda_workers
', 4)
#in[76]:
products = graphlab.sframe.read_csv('
data/commit.csv')
#in[77]:
products.head()
#in[78]:
#products['
word_count
'] = graphlab.text_analytics.count_words(products['
commits'])
#in[79]:
products.head()
#in[80]:
graphlab.canvas.set_target(
'browser')
#in[81]:
products[
'movie_name_zh
'].show()
#in[82]:
#獲取戰狼2的點評
giraffe_reviews = products[products['
movie_name_zh
'] == '
戰狼2']#
in[83]:
len(giraffe_reviews) 
#點評數量
#in[84]:
giraffe_reviews[
'userscore
'].show(view='
categorical
') #
檢視分類性質的評分分布
#發現戰狼2打7分的人最多
#in[88]:
#products = products[products['
userscore
'] != '
none']
products[
'userscore']
products[
'userscore
'] = products['
userscore
'].astype(float)
products = products[products['
userscore
'] != 5]
#in[89]:
#篩選正面評價
products['
sentiment
'] = products['
userscore
'] >=6.0
#in[90]:
products.head()
#in[91]:
#區分訓練集和測試集,並限定seed
train_data,test_data = products.random_split(.8, seed=0)
#in[92]:
#建立邏輯回歸分類器
sentiment_model =graphlab.logistic_classifier.create(train_data,
target='
sentiment',
features=['
word_count'],
validation_set=test_data)
#in[93]:
#評估情感分析模型.roc(受試者工作特徵曲線)
sentiment_model.evaluate(test_data, metric='
roc_curve')
#in[94]:
#視覺化評估結果
sentiment_model.show(view='
evaluation')
#in[95]:
#新增新的一列,predicted_sentiment(情感**),結果概率**
giraffe_reviews['
predicted_sentiment
'] = sentiment_model.predict(giraffe_reviews, output_type='
probability')
#in[96]:
giraffe_reviews.head()
#in[97]:
#排序,ascending決定是否公升序
giraffe_reviews = giraffe_reviews.sort('
predicted_sentiment
', ascending=false)
#in[98]:
giraffe_reviews.head()
#in[110]:
giraffe_reviews[0]
#in[112]:
giraffe_reviews[2]
#in[113]:
giraffe_reviews[-1]
#in[114]:
giraffe_reviews[-2]
#in[117]:
giraffe_reviews = giraffe_reviews[giraffe_reviews['
userscore
'] == '
none']
#in[119]:
giraffe_reviews.tail()
#in[ ]:

**位址(附作業答案):

第2課時初識機器學習

學科人工智慧年級四年級上課題第2課時初識機器學習課時數 1 教材分析在掌握人工智慧的概念，了解人工智慧在當前各領域各方面的應用及人工智慧的作用，了解人工智慧發展的歷史的基礎上，本課通過讓學生體驗人工智語音助手回答問題人工智慧識別植物的體驗，引發學生思考人工智慧是如何能得出問題的答...

機器學習演算法 2 K近鄰演算法實戰

前言這篇是部分，不會涉及原理部分的闡述，但整個程式的實現會分為2種，一種是純手工不用調庫，第二種方法是會借用sklearn的庫來實現。這裡使用的k近鄰案例是我們比較熟悉的手寫數值的識別，其中我會把訓練資料測試資料程式放在乙個同一檔案下。from numpy import from os i...

機器學習（2）回歸演算法回歸分析

在統計學中，回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少，分為一元回歸和多元回歸分析按照因變數的多少，可分為簡單回歸分析和多重回歸分析按照自變數和因變數之間的關係型別，可分為線性回歸 ...

機器學習實戰2 時光網評論分析

第2課時 初識機器學習

機器學習演算法 2 K近鄰演算法實戰

機器學習（2） 回歸演算法 回歸分析

相關推薦

第2課時初識機器學習

機器學習（2）回歸演算法回歸分析