第一步:導入庫
注意:要pip安裝pandas庫
第二步:匯入資料集(及資料的列印)
注意:所操作的.csv檔案要與所執行的py程式在同一級目錄下!
第三步處理丟失的資料:
注意:所有缺失值的補充是存在變數x中的
missing_values:缺失值,可以為整數或nan(缺失值numpy.nan用字串『nan』表示),預設為nan
strategy:替換策略,字串,預設用均值『mean』替換
①若為mean時,用特徵列的均值替換
②若為median時,用特徵列的中位數替換
③若為most_frequent時,用特徵列的眾數替換
axis:指定軸數,預設axis=0代表列,axis=1代表行
copy:設定為true代表不在原資料集上修改,設定為false時,就地修改,存在如下情況時,即使設定為false時,也不會就地修改
①x不是浮點值陣列
②x是稀疏且missing_values=0
③axis=0且x為crs矩陣
④axis=1且x為csc矩陣
statistics_屬性:axis設定為0時,每個特徵的填充值陣列,axis=1時,報沒有該屬性錯誤
列印x的效果:
機器學習100天 第一天(資料預處理)
step 1 導入庫 numpy 包含數學計算函式 pandas 用於匯入和管理資料集 step 2 匯入資料集 資料集通常都是 csv格式。csv檔案以文字形式儲存 資料。檔案的每一行是一條資料記錄。用 pandas 的 read csv 讀取本地csv檔案為乙個資料幀。然後從資料幀中製作自變數和...
activiti入門 第一天
從年前看activiti相關大約乙個多月了,在網上搜尋了無數的文章,感謝這個樓主的分享,從他的幾篇文章總算是入門了,自己嘗試寫了比較複雜的流程,總算實現了所有功能和業務,樓主鏈結再次感謝大牛的快速入門。activiti工作流的流程圖是bpmn的格式,新建之後直接畫圖即可。這次就介紹乙個比較簡單的流程...
C 入門第一天
今天開始學習c cout cin getline cin,inputline getline cin,inputline 其中 cin 是正在讀取的輸入流 而 inputline 是接收輸入字串的 string 變數的名稱int mian 下面 有問題嗎?int main 和上面的原理一樣 cin的...