工具記錄 最近學習機器學習加速工具

2021-09-11 19:08:58 字數 274 閱讀 3060

dask: 一開始是作為平行計算pandas dataframe使用的, 後來發現還很強大, 支援scikit, tpot等機器學習相關. 輕量化, 基於py社群(與之對應的是spark, 雖然有py版本, 但是本質是乙個大而全的整個系統)

numba:加速數**算, 尤其原生計算和numpy計算, 特別支援挺多計算函式(random等)

petastorm: uber支援的建立dataset的lib

from toolz import partition_all 也是平行計算的好的方法

機器學習 機器學習目錄

注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...

機器學習 機器學習概論

3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...

機器學習 機器學習基礎

資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...