資料預處理:
當接收到資料以後,我們應該使用print(pddata.describe())觀察資料,是否有缺失值,使用pddata.head()方法,去檢視有哪些特徵值進行數值轉換,將字串變成0,1。
資料缺失:數值型採用均值填充,字串型採用眾數填充。pddata["age"].fillna(pddata["age"].median());
數值轉換:pddata.loc(pddata["***"]=="male","***")=0 使用print(pddata["***"].unique())檢視"***"特徵值
資料二分類:選擇數值型的變數作為特徵,判斷目標值
線性回歸解決問題:
首先匯入sklearn庫中的linearregression和交叉驗證cross_validation模組的kfold庫
1.建立特徵陣列 2.獲得linearregression物件alg 3.利用kfold建立物件,需要傳入資料總行數pddata.shape[0]
以及交叉驗證次數
4.使用for迴圈,遍歷kfold中的訓練和測試集 5.獲取**的測試集和**的結果集 6.使用fit()方法進行訓練
7.使用predict()**
隨機森林解決問題:
匯入cross_validation中的kfold和rendomforestclassifier
1.建立特徵陣列 2.獲得隨機森林分類器物件alg 3.交叉驗證的物件kf 4.使用cross_val_score()獲得結果。
引數的選擇:
使用gridsearchcv這個庫
1.建立隨機樹引數字典 2.gridsearchcv()建立物件grid 3.使用fit() 4.輸出結果
特徵選擇:
判斷每個特徵對結果的影響
開發流程模型
瀑布模型 描述 每個軟體過程順序銜接 一次性通過,最常用。優點 由文件和風險驅動,利於提高大型專案開發的質量和效率。缺點 建設週期長 風險大 難以滿足使用者需求。適用場合 需求明確且很少變更的專案,如二次開發或公升級型專案。螺旋模型 描述 以原型為基礎沿螺線旋轉 每轉一圈都經過計畫 風險分析 實施 ...
Socket程式設計模型流程
面向連線協議的socket程式設計模型 引用內容 伺服器客戶機 socket bind listen accept socket 阻塞,等待客戶資料 建立連線 connect recv 請求資料 send send 應答資料 recv close close 面向無連線協議的socket程式設計模型...
建立領域模型
領域模型是對領域內的概念類或現實世界中物件的視覺化表示。又稱概念模型 領域物件模型 分析物件模型。它專注於分析問題領域本身,發掘重要的業務領域概念,並建立業務領域概念之間的關係。1 概念類分類表 就是事先分好類,然後由分析人員在需求資訊中尋找相應類別的候選物件進行確定和歸納,形成概念類。顧客向系統提...