摘要:理解資料科學的工作流程,有助於我們合理有序地把控相關專案的開展。常見的整個過程包括:獲取,檢查和探索,清理和準備,建模,評估和最後的部署。
機器學習應用中的資料,可以來自不同的資料來源,它可能是通過電子郵件傳送csv檔案,也可能是從伺服器中拉取的日誌,或者它可能需要構建自己的web爬蟲。資料可能存在不同的格式,在大多數情況下,它是基於文字的資料……
訪問資料常見的方式之一是通過rest風格的api介面,需要知道的庫是 python request 庫(它被稱為給人類使用的http,為api的互動提供了乙個整潔和簡單的方式。
讓我們來看乙個使用requests進行互動的例子,它從github的api中拉取資料:
import requests
r = requests.get(r'')
print (r.json())
一旦獲得了資料,下一步就是檢查和探索它們。乙個良好的實踐是在資料上執行一些簡單的統計測試,並將資料視覺化。
pandas是乙個卓越的資料分析工具。根據pandas的文件(使用示例如下 :
path = r'd:/iris/'
# 獲得經典的機器學習資料集,csv檔案
r = requests.get('')
with open(path + 'iris.data', 'w') as f:
f.write(r.text)
# change the current working directory to the specified path.
os.chdir(path)
# 給資料集賦與列名
df = pd.read_csv(path + 'iris.data', names = ['sepal length', 'sepal width', 'petal length', 'petal width', 'class'])
# 列印靠前行的資料框
print(df.head())
# 按條件過濾
print(df[(df['class']=='iris-virginica') & (df['petal width'] >2.2) ])
# 得到更為詳細的資訊,包括 平均值、標準差……
print(df.describe())
matplotlib是目前python專案用得最多的繪相簿,可用其創造圖表,對資料進行視覺化。seaborn是專門為統計視覺化而建立的庫(可以和pandas資料框完美地協作,找幾個示例程式學習一下,很容易上手。
map方法適用於序列資料,所以在我們的例子中將用它來轉變資料框的某個列。假設我們覺得「類別」欄位的名字太長了,並且希望使用特殊的3個字母**系統對其進行編碼。實現**如下:
df['class'] = df['class'].map()
print(df)
對於統計建模和機器學習,python有許多很優秀的、文件詳實的庫供選擇。scikit-learn是乙個令人驚喜的python庫,作者們為其設計了無與倫比的文件,為幾十個演算法提供了統一的api介面。覆蓋的一些領域包括:分類、回歸、聚類、降維、模型選擇和預處理。讓我們看看乙個例子——使用iris資料建立乙個分類器,然後學習如何利用scikit-learn的工具來評估得到的模型:
clf = randomforestclassifier(max_depth=5, n_estimators=10)
# 獲取前4列資料
x = df.ix[:,:4]
# 獲取「class」列的資料
y = df.ix[:,4]
# 將資料分成訓練組和測試組
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=.3)
# 訓練
clf.fit(x_train, y_train)
# 執行、得到**結果
y_pred = clf.predict(x_test)
# 輸出**值和實際值的對比
rf = pd.dataframe(list(zip(y_pred, y_test)), columns=['predicted', 'actual'])
print(rf)
print(rf['correct'].sum()/rf['correct'].count())
資料科學 機器學習工作流程
構建機器學習應用程式在許多方面與標準工程正規化相似,但在乙個關鍵方面有所不同 需要將資料作為原材料來使用。資料專案的成功在很大程度上取決於您所獲取資料的質量以及處理方式。並且由於處理資料屬於資料科學領域,因此有助於理解資料科學工作流程 該過程按以下順序進行以下六個步驟 採集,檢查和探索,清理和準備,...
機器學習的工作流程
打造乙個機器學習的應用程式,從工作流程方面熟悉整體的步驟,對後面深入學習有很大的幫助。整個過程有六個步驟 機器學習中的資料,可以來自不同的資料來源,可能是csv檔案,也可能是從伺服器拉取出來的日誌,或者是自己構建的web爬蟲。獲取了資料,下一步進行合理地檢查資料,最好的方法是發現不可能或幾乎不可能的...
GPU 加速資料科學工作流程
gpu 加速資料科學工作流程 gpu accelerate your data science workflows 傳統上,資料科學工作流程是緩慢而繁瑣的,依賴於cpu來載入 過濾和運算元據,訓練和部署模型。gpu大大降低了基礎設施成本,並為使用rapids的端到端資料科學工作流提供了卓越的效能 開...