爬蟲
1.基礎知識:**基本原理,html,python,多程序/多執行緒/協程等(必學)
2.html基礎、網路請求模組:requests(必學),urllib(可以了解)
3.需要了解一些常見的反爬策略以及對應的解決方案:常見的有ip頻率限制,user-agent、referer、origen驗證,cookie限制,動態載入及驗證碼等,
對應的處理手段有ip**池,偽造header,cookie儲存與處理(基礎高階)
4.網頁分析提取:beautifulsoup&xpath(二選一),正規表示式(必學)
5.動態執行js,js加密以及selenium,ocr識別或者打碼平台(選學)
6.資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)
7.網路抓包分析(選學)
8.爬蟲框架:scrapy(選學),pyspider(選學)
9.分布式爬蟲(選學)
資料分析與處理
1.基礎知識:python(函式、模組、物件導向),正規表示式,json(必學)
2.上述爬蟲相關:
·基礎知識:**基本原理,html,python,多程序/多執行緒/協程等(必學)
·html基礎、網路請求模組:requests(必學),urllib(可以了解)
·需要了解一些常見的反爬策略以及對應的解決方案:常見的有ip頻率限制,user-agent、referer、origen驗證,cookie限制,動態載入及驗證碼等,
對應的處理手段有ip**池,偽造header,cookie儲存與處理(基礎高階)
·網頁分析提取:beautifulsoup&xpath(二選一),正規表示式(必學)
·動態執行js,js加密以及selenium,ocr識別或者打碼平台(選學)
·資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)
4.圖表繪圖與視覺化:matplotlip,詞云(必學)
大資料(資料探勘、機器學習)
1.基礎知識:python(基礎+高階)(必學)
2.金融學、統計學、計量經濟學、投資學(必學)
3.資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)
5.圖表繪圖與視覺化:matplotlip等(必學)
boosting、聚類、推薦系統、plsa、lda、gdbt、regularization、異常檢測、em演算法、apriori、
fp growth等(必學)
Python 學習路線
前言 著手準備學學習python,希望路過的朋友有好的建議的可以提出來,謝謝!當然,這個份路線在今後學習中,我會加以改進!基礎篇 一 基本課程 一 程式設計的基礎知識 二 資料型別 運算子 表示式 變數賦值 簡單的i o操作 三 程式控制結構 四 函式與遞迴函式 五 字串 六 列表與元組 七 字典與...
Python學習路線
談到學習路線,入門是基礎課。基本上,熟練掌握python入門指南 即可。其次,要想更進一步,需要熟讀官方文件,掌握各種內建函式 標準庫等知識。關於兩者,英文不好的魚油們可以關python中文官方文件 板塊,也歡迎有餘力的魚油加入我們的團隊。關於python的奇淫技巧,可以看 effective py...
python學習路線
python是一種物件導向 直譯式計算機程式語言,由guido van rossum於1989年底發明。由於他簡單 易學 免費開源 可移植性 可擴充套件性等特點,python又被稱之為膠水語言。下圖為主要程式語言近年來的流行趨勢,python受歡迎程度扶搖直上。用python玩轉資料 由於pytho...