機器學習還有哪些好玩的點?想要入門機器學習你該怎麼做?有哪些好的資料可以幫助大家盡快入門?
廢話不多說咱們開始吧!
01 機器學習的應用
目前機器學習在以下場景應用非常火熱:
1.
推薦系統
網易雲**每日推薦、每個人**
2.自然語言處理
3.
計算機視覺
face++
礦視科技等
02 入坑必備
既然這個領域這麼火想入坑的小夥伴該如何下手呢?一般正規化是這樣的:
目前在網際網路領域從事機器學習的人,有
2類背景的人比較多,其中一部分
(很大一部分)是
cs背景出身的,這類同學**能力邏輯能力強,有想法可以很快上手。另一部分是學數學統計領域的同學,這部分同學理論基礎相對紮實一些。因此對比上圖,這兩類同學入門機器學習,所欠缺和需要加強的部分是不一樣的。要是都沒學過先哭一會然後惡補吧!(調皮的某男神~~)
這塊主要用到的是三塊
:微積分、線性代數、概率與統計,理工科的同學在本科時候應該都學過這三門課,如果不是搞高深的機器學習研究,需要掌握的知識點也不是特別難,比如理解梯度的含義、極值、求導、偏導數等,其中乙個概念可能在本科的學習中接觸的比較少——最優化或者叫凸優化。求解模型就是乙個不斷尋優的過程常用的方法有:梯度下降法、牛頓法等。建議大家看陳寶林的最優化理論與演算法。
線性代數:
大家可能都學過,但學明白的可能不多,什麼是特徵值、特徵向量、奇異矩陣等概念大家應該都忘了,重溫的話建議大家看
麻省理工
gilbert strang
教授的課程。
矩陣乘法與分解在機器學習的主成分分析(
pca)和奇異值分解(
svd)等部分呈現刷屏狀地出現,所以線性代數也要補一補。
概率與統計:
極大似然思想、貝葉斯模型是理論基礎,樸素貝葉斯
(naïve bayes )
、語言模型
(n-gram)
、隱馬爾科夫(
hmm)、隱變數混合概率模型是他們的高階形態。
常見分布如高斯分布是混合高斯模型
(gmm)
等的基礎。這個主要學習一些隨機過程的內容,推薦張波的隨機過程。
python有著全品類的資料科學工具,從資料獲取、資料清洗到整合各種演算法都做得非常全面。
·網頁爬蟲
:request
、scrapy
、beautifulsoup
、pyquery、re
·資料探勘:·
pandas
:模擬r
,進行資料瀏覽與預處理。
·numpy
:陣列運算。
·scipy
:高效的科學計算。
·matplotlib
:非常方便的資料視覺化工具。
·機器學習: ·
scikit-learn
:遠近聞名的機器學習
package
。未必是最高效的,但是介面真心封裝得好,幾乎所有的機器學習演算法輸入輸出部分格式都一致。而它的支援文件甚至可以直接當做教程來學習,非常用心。對於不是非常高緯度、高量級的資料,
scikit-learn
勝任得非常好
(有興趣可以看看
sklearn
的原始碼,也很有意思)。
·libsvm
:高效率的
svm模型實現
(了解一下很有好處,
libsvm
的係數資料輸入格式,在各處都非常常見) ·
keras/
tensorflow
:對深度學習感興趣的同學,也能很方便地搭建自己的神經網路了。
·自然語言處理: ·
nltk
:自然語言處理的相關功能做得非常全面,有典型語料庫,而且上手也非常容易。
r語言有以下特點: •r
免費資源公開
(不是黑盒子
,也不是吝嗇鬼) •
r全面的統計研究平台 •r
支援多種作業系統可以在
unix, windows
和macintosh
執行 •
r 有優秀的畫圖功能. •
r可進行互動式資料分析和探索的強大平台 •r
有優秀的內在幫助系統 •r
語言有乙個強大的
,容易學習的語法
,有許多內在的統計函式
.03 常用的機器學習
下面是寒小陽大神的總結:
1.處理分類問題的常用演算法包括:
邏輯回歸
(工業界最常用
),支援向量機,隨機森林,樸素貝葉斯
(nlp
中常用)
,深度神經網路()
。2.處理回歸問題的常用演算法包括:線性回歸,普通最小二乘回歸(
ordinary least squares regression
),逐步回歸(
stepwise regression
),多元自適應回歸樣條(
multivariate adaptive regression splines
) 3.
處理聚類問題的常用演算法包括:
k均值(
k-means
),基於密度聚類,
lda等等。
4.降維的常用演算法包括:主成分分析(
pca)
,奇異值分解(
svd)
等。 5.
推薦系統的常用演算法:協同過濾演算法
6.模型融合
(model ensemble)
和提公升(boosting)
的演算法包括:
bagging
,adaboost
,gbdt
,gbrt
7.其他很重要的演算法包括:
em演算法等等。
WSL入坑與踩坑
這篇文章,將會娓娓道來我使用wsl的經歷,包括如何安裝以及早期玩家踩的一些坑。這是乙個很好的工具,與vscode簡直是絕配。wsl是什麼 適用於 linux 的 windows 子系統可讓開發人員按原樣執行 gnu linux 環境 包括大多數命令列工具 實用工具和應用程式 且不會產生傳統虛擬機器或...
棄坑pexpect,入坑paramiko
上文書說到,ssh庫pexpect的使用,簡直就是個 月亮公主 滿眼全是坑。勉強把程式寫好了,跑起來的時候發現了乙個新坑,讓我不可抗拒的把它棄掉了 經常莫名其妙的連不上伺服器!開執行緒連線14臺伺服器,總有1到3臺連不上,還查不到原因。這還了得!一怒之下把寫好的pexpect封裝庫刪掉了,用para...
Kafka入坑指南
kafka是為大資料而生的訊息中介軟體,以其百萬級tps的吞吐量名聲大噪,迅速成為大資料領域的寵兒,在資料採集 傳輸 儲存的過程中發揮著舉足輕重的作用,而storm,spark,flink等大資料流處理或批處理平台都有kafka的相關外掛程式支援。本著為開源做貢獻的原則,在學習kafka的同時也參與...