機器學習學習小結（3）

1. scikit-learn環境

在anaconda常用的命令（在anaconda prompt中鍵入）：

若在window命令視窗中直接輸入conda list會提示不是內部或外部命令：

scikit-learn中文文件：建立在numpy,scipy和matplotlib（事先需要安裝）。

2. anaconda和pycharm編寫程式

資料集：

裡面有一項是：

missing values?

yes下面是資料收集，資料處理階段的**。在pycharm中執行。

from sklearn.linear_model import linearregression #線性回歸要使用
from sklearn.model_selection import train_test_split  #將資料進行分割成訓練資料和測試資料
from sklearn.preprocessing import standardscaler #資料的標準化處理
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import time
# 解決顯示中文字元的問題
mpl.rcparams['font.family'] ='sans-serif'
mpl.rcparams['font.sans-serif'] ='simhei'
mpl.rcparams['axes.unicode_minus']=false
#下面進入機器學習的流程
#下面是資料收集階段
path1='data.txt' #資料集在當前工程下的路徑和名稱
df=pd.read_csv(path1, sep=';', low_memory=false)  #讀取資料，以;為分隔符，low_memory表示資料的型別是一致時可以提公升執行速度。
# print(type(df))#型別是dataframe物件，有行和列
# print(df.index)#行索引
# print(df.columns)#列索引
# print(df.head(3))#看前面的三行資料
# print(df.info( ))#看資料的型別，都是物件
#下面是針對於異常資料的處理
new_df=df.replace('?', np.nan)#將?替換為np.nan
datas=new_df.dropna(axis=0, how='any')#任一行有np.nan時就把這一行給刪掉
# print(datas.index)
# print(datas.columns)
# print(datas.describe().t)#有9個特徵，有object型別的可以顯示。
y=datas['global_active_power'] #取出global_active_power這一列的資料，即功率。變為series series是由一組資料及與之相關的資料索引組成。即1 5.374,3 5.388。
# print(type(y))
# print(y.head(4))
def data_format(dt):
#dt是series [date] [time]，如[16/12/2006] [17:24:00]
t=time.strptime(' '.join(dt), '%d/%m/%y %h:%m:%s')#把dt分割，以空格分開由join連線起來。
return(t.tm_year, t.tm_mon, t.tm_mday, t.tm_hour, t.tm_min, t.tm_sec)
x=datas.iloc[:, 0:2] #取出第1和2列資料
# print(x.head(4))
# print(type(x))

《機器學習實戰》小結

最近一段時間讀了peter harrington 的machine learning in action，對機器學習有個大致的了解，做個總結。全書分為4部分監督學習分類回歸無監督學習其他工具。包含演算法原理解釋，並講解python實現演算法的流程。讀完能對機器學習方法有個大致了解。我主要細...

機器學習知識小結

機器學習方法從數學的角度來看其實就是模型策略演算法。模型就是對乙個實際業務問題進行建模，將其轉化為乙個可以用數學來量化表達的問題。策略就是定義損失函式來描述值與理論值之間的差距，將其轉化為乙個使損失函式最小化的優化問題。演算法指的是求解最優化問題的方法，我們一般將其轉化為無約束優化問題，然後...

機器學習演算法小結

貝葉斯分類器 bayesian classifier 如何建立乙個文件分類系統，用於垃圾郵件過濾，或是根據關鍵字的模糊搜尋來對一組文件進行劃分貝葉斯分類器一般用於關於文件處理，但實際上也可以適用於任何其他形式的資料集，只要能將其轉化成一組特徵列表。所謂特徵，就是指乙個給定項中存在或缺少的某種東西。...

機器學習學習小結（3）

《機器學習實戰》小結

機器學習知識小結

機器學習演算法小結

相關推薦