無論出於興趣或者職業發展,於是最近開始做各種大小專案實踐,以拉勾網資料分析招聘職位分析廣州求職競爭情況!
tools : chrome; python 3.6;jupyter
os : mac osx
在拉勾網搜尋頁面輸入資料分析,並且定位為廣州,用f12開啟開發除錯工具,根據下圖示紅的地方檢視詳細資訊:
在general裡面很容易看出是post請求,並且返回的是json資料,很方便讀取,如下圖
通過觀察分析,發現post請求時候由表單資訊控制查詢關鍵字和頁碼,
同時,報頭資訊最好包括header,cookie,data等資訊,用的requests庫對獲取的json資料解析,爬蟲函式如下:
由於拉勾網反扒機制的限制,設定10s的抓取間隔,效率較低,時間間隔可以自己看情況設定。
檢視抓取的資料情況:
簡單的資料清洗,然後可以用df.to_csv儲存或直接分析
可以匯入pyecharts庫,進行視覺化,注意檔案可以儲存在當前工作目錄(os.getcwd可以檢視當前路徑),由圖可以看出資料工作幾乎集中在天河區!
(以拉勾網為例)應屆生大部分薪資在5000+,而工作3年以上的工資接近兩萬!工作經驗基本與工資成正比,學無止境,加油!
資料分析與資料探勘
一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...
資料分析與資料探勘
資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...
資料分析與挖掘
學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...