精華分享 轉行資料分析的乙份學習清單

2021-09-13 14:50:31 字數 2716 閱讀 9030

知乎:python資料分析師

注意:

如果你是乙個對程式設計毫無經驗的小白,那麼首先你應該掌握一定的程式設計基礎(尤其像從其它行業轉行到it行業的朋友們)。對於新手來說,博主認為python語言是最佳的選擇。作為乙個解釋型的動態高階語言,python易於理解,上手簡單,非常適合初學者學習。一本快速入門python語言的書籍推薦:簡明python。這本書英文原版為《a byte of python》,經翻譯變為《簡明python》。博主也給好多人推薦過,大家看過之後基本上都很認同,是入門python最快效果最好的書籍

如果你已經了解了python程式設計的基礎用法想要繼續深入學習pyhon,那麼博主推薦你去看:廖學峰python教程。它基本上涵蓋了python程式設計入門到精通的所有知識,如果你能將這個看透,那麼可以說你已經掌握了python這門語言了。

學完了python的理論知識,當然就需要應用,需要實戰。博主之前分享了一篇文章非常適合python初學者的實戰專案,非常有趣,也易於實現。如果你也苦於找不到乙個合適的練習專案,那麼可以嘗試一下這個練習專案:

拋開對業務層面的基本理解,學好資料分析首先需要了解統計學,統計分析是資料分析的基礎,也是靈魂。下面博主列出統計分析的幾個核心內容:

作為微軟的乙個出色**處理工具,excel也是資料分析師需要掌握的。因為公司很多其它部門非技術人員是不會使用程式設計工具的,而會使用相對簡單的excel來處理一些報表。這個時候就可能需要你可以在excel中做一些資料分析工作然後反饋,但是也不必太深入,掌握核心的功能即可,比如:

能夠熟練運用上面功能就可以,學習週期很短,甚至一天就能學會,主要是熟練。而對於剩下的複雜功能等遇到了再學習也不遲。

r語言就是為統計學而設計的語言,是統計行業中非常高效實用的工具,目前非常受歡迎。而python作為目前非常火爆的語言,由於其出色的科學計算包pandasnumpyscikit-learn等的存在,非常適合於資料分析與資料探勘,也是很多人的不二選擇。

使用python做資料分析,首先需要學會使用numpypandas包,因為它是python資料分析的核心工具。numpy主要解決一些數學計算,矩陣變換,線性代數等問題,pandas更像是一張excel表,有行列定義,字段定義,以及資料變換和預處理等操作。兩個計算包非常強大,pandas包自己就有兩千多個方法,但是別慌,我們只要掌握核心方法就可以了。關於如何學習numpy和pandas,博主後續也會不斷分享介紹,但是這裡先貼出兩張numpy和pandas學習的思維導圖,總結的非常好。

除此之外,推薦一本特別好的python資料分析書籍:利用python進行資料分析,這本書是入門python資料分析非常好的書籍,從numpy,pandas,資料預處理,資料重塑合併,資料變換等各種關於資料的操作,最後還介紹了python的時間序列用法以及在金融領域上的應用。

python的資料視覺化工具是matplotlibmatplotlib的功能也十分強大,將它使用好會讓你的資料視覺化美觀清晰,吸人眼球。另外乙個視覺化工具是seaborn,它是在matplotlib基礎上封裝的更高階的視覺化工具,使用方便,圖表非常美觀,並有facegridpairplotheatmap等強大的複合型視覺化方法。

好多朋友問:資料分析崗位要求會爬蟲嗎?要求會機器學習嗎?

首先說爬蟲。其實說實話,對於資料分析而言,爬蟲真不是必須的,因為一般的大公司都有專門的爬蟲團隊。資料分析只是將資料從資料庫取出然後做資料處理和分析。不過,爬蟲作為一項技能是可以在一定程度上加分的,起碼在博主的面試經歷中是這樣的。博主之前分享過一系列爬蟲技術的文章,感興趣的朋友也可以在後台學習資源中找到,這裡不贅述了。

其次是機器學習。對於機器學習,博主想說這部分還是有必要了解一下的(不是必須),因為一是可以給自己加分,另外也可以讓自己清楚未來的職業方向。資料分析的發展方向一般有bi商業方向,行業分析業務方向,和機器學習資料探勘方向。了解常用的監督和非監督模型,如樸素貝葉斯,決策樹,聚類等可以讓自己更加深刻得理解資料分析。

機器學習的書籍推薦:《統計學習方法》《機器學習》《機器學習實戰》三本書。

李航的統計學方法和周志華的機器學習(西瓜書)是大家最為熟知,最經典的書籍資源,兩本書主要介紹機器學習的統計理論知識和公式推導,比較難啃,對於初學者其實並不建議花費大量時間深究。因為機器學習涉及的東西很多很雜,對於數學要有很強的功底,所以並不是短時間內可以全部掌握的。對於轉行人員來說,時間是很寶貴的,因此博主建議這兩本書可以作為參考,但不必盲目深入研究。而對於已經從事本行業的人員,這兩本書無疑是最絕佳的參考資料,可以反覆閱讀。

博主的建議是:先從巨集觀上了解各個模型的特徵,優缺點及主要的應用,然後再慢慢由淺入深的學習各個模型演算法的緣由和推導,因為這樣不但會逐漸建立信心,也會對模型演算法有更深刻的理解。總的來說,幾本書各有特色,相輔相成,建議結合幾本書一起學習效果最佳。當然,關於機器學習這部分,博主後面也會陸續給大家介紹。

乙份資料分析學習清單 xls

上期入口 18個堪稱神器的命令列工具,高效運維必備 一門程式語言肯定是很有必要的,至於是哪門程式語言,目前無論是專業推薦還是招聘需求,都是以python為主的。並且python確實也是比較適合新手快速上手入門,這裡不做過多討論。書籍1 簡明 python 教程 a byte of python 書籍...

資料分析學習分享(一)

裝載於 1 建議大家先學習mysql關聯式資料庫,在分析師崗位上資料庫是經常要用到的,也是必須要會的 2 建議大家接下來學習資料建模 資料倉儲,etl資料清洗,特別在工作中資料質量管理是比較重的,etl是經常用的 當然資料清洗工具也有其他的,etl是大家通用的 3 hadoop分布式其實在分析師這個...

轉行資料分析的親身經歷

知乎 python資料分析 最近生活上確實有點忙,不過後續將恢復正常。今天和大家聊乙個非技術性的話題 轉行。全篇無 但是我想對於這個話題,很多朋友都非常感興趣,畢竟工作伴隨著我們的一生,也是主要的收入 誰不想找乙份高薪又有前景的工作呢?現所處行業的未來發展 分析現在所在行業在未來10或者20年裡是否...