前言
此篇隨筆為大綱及概述,後續會更新詳細內容及案例內容。
大綱以及後續更新的內容來自本人從b站博主 路飛學城 發布的課程學來的知識加以自己的理解,案例內容為自己提的各方面需求。
職業規劃
大綱
python基礎語法
requests模組,session請求(請求時攜帶動態變化的cookie)
xpath解析(推薦),bs4解析,正規表示式
selenium模組、動作鏈、iframe標籤的注意
selenium操控的無頭瀏覽器及規避對selenium的檢測
驗證碼的處理:雲打碼平台(普通驗證碼,數字字母之類)
超級鷹(更難得驗證碼,比如給出文字「老虎」,驗證碼要求點選圖中所有老虎)
ocr技術(使用tesserocr庫,可以識別難度低的,比如下圖,一般使用此方法時需要處理處理,比如灰度化,二值化)
機器學習訓練模型分析出驗證碼
卷積神經網路訓練模型分析出驗證碼(比機器學習準確度更高)
selenium解決滑動式驗證碼,具體方法是比較驗證碼缺失位置畫素差值,然後獲取位置啊大小啊之類,截圖,加速,減速等行為。
暴力列舉解決宮格式驗證碼(比如各個手機銀行進入時的宮格手勢密碼)
**ip池的維護
多執行緒/多程序 非同步爬蟲
協程爬蟲
scrapy框架
分布式爬蟲(基於scrapy-redis)
增量式爬蟲(利用redis資料庫的set去重)
資料庫:
mysql
mongodb
redis
js逆向破解引數加密
js混淆
案例
美團的浦東商家詳情頁資訊
58同城的簡歷自動投遞
安居客**資訊的採集
**iphone11手機**的採集及實時更新
boss直聘中上海網際網路行業各職位薪資待遇和職位要求
雪球網滬深**滬深一覽增量式爬取(內容在變化)
神州租車**和數量 增量式爬取
信託類**專案型別和規模的爬取
格力空調官網 格力發布 新聞的爬取
衡水市人民**公示公告的爬取
爬蟲工程師轉反爬蟲 如何入行爬蟲工程師
撰文 皓禹在現狀和想要達到的目標之間,總是有一條大河。大部分人花費了巨大的精力在水流裡掙扎,還沒能接近目標,就已經被湍急的水流沖走了。然而,總有少部分人能乘著小船,直達對岸。10年前,從普通學校畢業的我進入了一家小公司,傳統運維的工作重複性太高,特別枯燥。3個月之後,我跳槽了,薪酬是之前的兩倍。學一...
軟體工程師軟技能
一 十步學習法體系 總結下 第1步到第六步主要將學習的目標分成能夠在較短時間內 比如 一周 兩周 完成的小目標,最後通過第7步到第10步反覆學習直到達成目標。二 擁有企業心態 你所能犯的最大錯誤就是相信自己是在為別人工作。這樣一來你對工作的安全感已然盡失。職業發展的驅動力一定是來自個體本身。記住 工...
FPGA工程師的技能樹
前言 最近因為學校要求實習三個月,看了看各種招聘,發現所學知識還是泛而不精,於是選了乙個自己比較感興趣的ic方向,看看fpga工作到底需要些什麼知識和軟實力。知識 精通fpga上verilog或者vhdl開發 verilog and systemverilog 熟悉各種常用介面 uart spi i...