科普周 入坑須知 機器學習掃盲篇(二)

2021-08-20 17:46:21 字數 3073 閱讀 8603

機器學習還有哪些好玩的點?想要入門機器學習你該怎麼做?有哪些好的資料可以幫助大家盡快入門?

廢話不多說咱們開始吧!

01 機器學習的應用

目前機器學習在以下場景應用非常火熱:

1.

推薦系統

網易雲**每日推薦、每個人**

2.自然語言處理

3.

計算機視覺

face++

礦視科技等

02 入坑必備

既然這個領域這麼火想入坑的小夥伴該如何下手呢?一般正規化是這樣的:

目前在網際網路領域從事機器學習的人,有

2類背景的人比較多,其中一部分

(很大一部分)是

cs背景出身的,這類同學**能力邏輯能力強,有想法可以很快上手。另一部分是學數學統計領域的同學,這部分同學理論基礎相對紮實一些。因此對比上圖,這兩類同學入門機器學習,所欠缺和需要加強的部分是不一樣的。要是都沒學過先哭一會然後惡補吧!(調皮的某男神~~)

這塊主要用到的是三塊

:微積分、線性代數、概率與統計,理工科的同學在本科時候應該都學過這三門課,如果不是搞高深的機器學習研究,需要掌握的知識點也不是特別難,比如理解梯度的含義、極值、求導、偏導數等,其中乙個概念可能在本科的學習中接觸的比較少——最優化或者叫凸優化。求解模型就是乙個不斷尋優的過程常用的方法有:梯度下降法、牛頓法等。建議大家看陳寶林的最優化理論與演算法。

線性代數:

大家可能都學過,但學明白的可能不多,什麼是特徵值、特徵向量、奇異矩陣等概念大家應該都忘了,重溫的話建議大家看

麻省理工

gilbert strang

教授的課程。

矩陣乘法與分解在機器學習的主成分分析(

pca)和奇異值分解(

svd)等部分呈現刷屏狀地出現,所以線性代數也要補一補。

概率與統計:

極大似然思想、貝葉斯模型是理論基礎,樸素貝葉斯

(naïve bayes )

、語言模型

(n-gram)

、隱馬爾科夫(

hmm)、隱變數混合概率模型是他們的高階形態。

常見分布如高斯分布是混合高斯模型

(gmm)

等的基礎。這個主要學習一些隨機過程的內容,推薦張波的隨機過程。

python有著全品類的資料科學工具,從資料獲取、資料清洗到整合各種演算法都做得非常全面。

·網頁爬蟲

:request

、scrapy

、beautifulsoup

、pyquery、re

·資料探勘:·

pandas

:模擬r

,進行資料瀏覽與預處理。

·numpy

:陣列運算。

·scipy

:高效的科學計算。

·matplotlib

:非常方便的資料視覺化工具。

·機器學習: ·

scikit-learn

:遠近聞名的機器學習

package

。未必是最高效的,但是介面真心封裝得好,幾乎所有的機器學習演算法輸入輸出部分格式都一致。而它的支援文件甚至可以直接當做教程來學習,非常用心。對於不是非常高緯度、高量級的資料,

scikit-learn

勝任得非常好

(有興趣可以看看

sklearn

的原始碼,也很有意思)。

·libsvm

:高效率的

svm模型實現

(了解一下很有好處,

libsvm

的係數資料輸入格式,在各處都非常常見) ·

keras/

tensorflow

:對深度學習感興趣的同學,也能很方便地搭建自己的神經網路了。

·自然語言處理: ·

nltk

:自然語言處理的相關功能做得非常全面,有典型語料庫,而且上手也非常容易。

r語言有以下特點: •r

免費資源公開

(不是黑盒子

,也不是吝嗇鬼) •

r全面的統計研究平台 •r

支援多種作業系統可以在

unix, windows

和macintosh

執行 •

r 有優秀的畫圖功能. •

r可進行互動式資料分析和探索的強大平台 •r

有優秀的內在幫助系統 •r

語言有乙個強大的

,容易學習的語法

,有許多內在的統計函式

.03 常用的機器學習

下面是寒小陽大神的總結:

1.處理分類問題的常用演算法包括:

邏輯回歸

(工業界最常用

),支援向量機,隨機森林,樸素貝葉斯

(nlp

中常用)

,深度神經網路()

。2.處理回歸問題的常用演算法包括:線性回歸,普通最小二乘回歸(

ordinary least squares regression

),逐步回歸(

stepwise regression

),多元自適應回歸樣條(

multivariate adaptive regression splines

) 3.

處理聚類問題的常用演算法包括:

k均值(

k-means

),基於密度聚類,

lda等等。

4.降維的常用演算法包括:主成分分析(

pca)

,奇異值分解(

svd)

等。 5.

推薦系統的常用演算法:協同過濾演算法

6.模型融合

(model ensemble)

和提公升(boosting)

的演算法包括:

bagging

,adaboost

,gbdt

,gbrt

7.其他很重要的演算法包括:

em演算法等等。

WSL入坑與踩坑

這篇文章,將會娓娓道來我使用wsl的經歷,包括如何安裝以及早期玩家踩的一些坑。這是乙個很好的工具,與vscode簡直是絕配。wsl是什麼 適用於 linux 的 windows 子系統可讓開發人員按原樣執行 gnu linux 環境 包括大多數命令列工具 實用工具和應用程式 且不會產生傳統虛擬機器或...

棄坑pexpect,入坑paramiko

上文書說到,ssh庫pexpect的使用,簡直就是個 月亮公主 滿眼全是坑。勉強把程式寫好了,跑起來的時候發現了乙個新坑,讓我不可抗拒的把它棄掉了 經常莫名其妙的連不上伺服器!開執行緒連線14臺伺服器,總有1到3臺連不上,還查不到原因。這還了得!一怒之下把寫好的pexpect封裝庫刪掉了,用para...

Kafka入坑指南

kafka是為大資料而生的訊息中介軟體,以其百萬級tps的吞吐量名聲大噪,迅速成為大資料領域的寵兒,在資料採集 傳輸 儲存的過程中發揮著舉足輕重的作用,而storm,spark,flink等大資料流處理或批處理平台都有kafka的相關外掛程式支援。本著為開源做貢獻的原則,在學習kafka的同時也參與...