Python做資料分析,一般的流程是怎麼樣的?

2021-10-10 21:17:32 字數 2086 閱讀 6949

程式設計新視野 | 作者

python是一門動態的、物件導向的指令碼語言,同時也是一門簡約,通俗易懂的程式語言。python入門簡單,**可讀性強,一段好的python**,閱讀起來像是在讀一篇外語文章。python這種特性稱為「偽**」,它可以使你只關心完成什麼樣的工作任務,而不是糾結於python的語法。

另外,python是開源的,它擁有非常多優秀的庫,可以用於資料分析及其他領域。更重要的是,python與開源大資料平台hadoop具有很好的相容性。因此,學習python對於有志於向大資料分析崗位發展的資料分析師來說,是一件非常節省學習成本的事。

python的眾多優點讓它成為受歡迎的程式語言之一,國內外許多公司也已經在使用python,例youtube,google,阿里雲等等。

要學習如何用python進行資料分析, 筆者建議第一步是要了解一些python的程式設計基礎,知道python的資料結構,什麼是向量、列表、陣列、字典等等;了解python的各種函式及模組。下圖整理了這一階段要掌握的知識點:

python是資料分析利器,掌握了python的程式設計基礎後,就可以逐漸進入資料分析的奇妙世界。筆者認為乙個完整的資料分析專案大致可分為以下五個流程:

1. 資料獲取

一般有資料分析師崗位需求的公司都會有自己的資料庫,資料分析師可以通過sql查詢語句來獲取資料庫中想要資料。python已經具有連線sql server、mysql、orcale等主流資料庫的界麵包,比如pymssql、pymysql、cx_oracle等。

而獲取外部資料主要有兩種獲取方式,一種是獲取國內一些**上公開的資料資料;一種是通過編寫爬蟲**自動爬取資料。如果希望使用python爬蟲來獲取資料,我們可以使用以下python工具:

2. 資料儲存

對於資料量不大的專案,可以使用excel來進行儲存和處理,但對於資料量過萬的專案,使用資料庫來儲存與管理會更高效便捷。

3. 資料預處理

資料預處理也稱資料清洗。大多數情況下,我們拿到手的資料是格式不一致,存在異常值、缺失值等問題的,而不同專案資料預處理步驟的方法也不一樣。筆者認為資料分析有80%的工作都在處理資料。如果選擇python作為資料清洗的工具的話,我們可以使用numpy和pandas這兩個工具庫:

4. 建模與分析

這一階段首先要清楚資料的結構,結合專案需求來選取模型。

常見的資料探勘模型有:

在這一階段,python也具有很好的工具庫支援我們的建模工作:

5. 視覺化分析

資料分析最後一步是撰寫資料分析報告,這也是資料視覺化的乙個過程。在資料視覺化方面,python目前主流的視覺化工具有:

按照這個流程,每個階段所涉及的知識點可以細分如下:

從上圖我們也可以得知,在整個資料分析流程,無論是資料提取、資料預處理、資料建模和分析,還是資料視覺化,python目前已經可以很好地支援我們的資料分析工作

資料分析一般流程

資料分析的真正價值在於發現問題,解決問題,創造價值。使用什麼軟體 工具並不是重要。現在市面上的出現的好多機構,解決的更多的是入門使用工具的問題,演變成手段問題。資料分析是把現實的問題轉化為資料能夠解決的問題,使用我們學習到的知識和經驗,將資料提煉出來的資訊應用,創造價值的過程。分為三部 從問題到資料...

資料分析的一般流程和方法

賣家資料顯示 胸最大的是新疆妹子,國內內衣消費最多的size是b 其中75b銷量最好,佔比41.45 其次是a,佔比 25.26 各種顏色中,黑色最為暢銷,因為百搭。這些早已應用在內衣生產 備貨 銷售等關鍵環節。網易雲 資料顯示 90後使用者佔比高達59 其次是80後 12 除了流行歌曲,使用者最喜...

費用流的一般模版

參考博文 struct edge edge maxn char mp maxn maxn int head maxn dis maxn vis maxn pre maxn tot int s,t,n,m void init void addedge int u,int v,int w,int cos...