import pandas as pd
titanic=pd.read_csv('')
#資料預處理
#特徵選擇
x=titanic[['pclass','age','***']]
y=titanic['survived']
#檢視特徵統計資訊,發現age列只有633個,需要補充完整
#***,pclass 兩個資料列都是類別型變數,需要轉化為數值型
#使用平均數填充age列的na
x['age'].fillna(x['age'].mean(),inplace=true)
x.info()
#資料分割
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=33)
#類別變數轉化為數值型,轉換特徵後發現,凡是類別型變數的特徵都單獨
#剝離出來,獨成一列特徵
from sklearn.feature_extraction import dictvectorizer
vec=dictvectorizer(sparse=false)
x_train=vec.fit_transform(x_train.to_dict(orient='record'))
print(vec.feature_names_)
#對測試資料的特徵進行轉換
x_test=vec.fit_transform(x_test.to_dict(orient='record'))
#決策樹分類,**
from sklearn.tree import decisiontreeclassifier
dtc=decisiontreeclassifier()
dtc.fit(x_train,y_train)
dtc_y_pred=dtc.predict(x_test)
#使用隨機森林分類器
from sklearn.ensemble import randomforestclassifier
rfc=randomforestclassifier()
rfc.fit(x_train,y_train)
rfc_y_pred=rfc.predict(x_test)
#使用梯度提公升決策樹
from sklearn.ensemble import gradientboostingclassifier
gbc=gradientboostingclassifier()
gbc.fit(x_train,y_train)
gbc_y_pred=gbc.predict(x_test)
#評價分類器的**效能
from sklearn.metrics import classification_report
#決策樹分類的**效能
print(dtc.score(x_test,y_test))
print(classification_report(y_test,dtc_y_pred))
#隨機森林分類的**效能
print(rfc.score(x_test,y_test))
print(classification_report(y_test,rfc_y_pred))
#梯度提公升決策樹分類的**效能
print(gbc.score(x_test,y_test))
print(classification_report(y_test,gbc_y_pred))
2 1 2 5 整合模型(回歸)
美國波士頓地區房價描述 from sklearn.datasets import load boston boston load boston print boston.descr 資料分割 from sklearn.cross validation import train test split ...
2 整合管理
相互競爭的目標 範圍 進度 成本 質量。多快好省。技術與管理工作間的衝突 領導與員工間相互不爽。所需要的不同技術專業之間 不同的技術。專案管理各知識領域之間 要平衡不同的領域花費的時間 成本。三邊四沒六拍 三邊 邊走,邊看,邊抱怨 四沒 開始時,沒問題 過程中,沒關係 失敗時,沒辦法 總結時,沒資源...
環信3 0整合
以前用過環信2.0,現在工作需要,重新用到環信,再次體驗了一次環信。開發環境 androidstudio 整合步驟 2 匯入easeui 3 配置androidmanifest easeui.getinstance init context,options 5 複製環信demo的chatactivi...