爬蟲工程師就業技能及大綱

2022-04-29 00:45:10 字數 1876 閱讀 6710

前言

此篇隨筆為大綱及概述,後續會更新詳細內容及案例內容。

大綱以及後續更新的內容來自本人從b站博主 路飛學城  發布的課程學來的知識加以自己的理解,案例內容為自己提的各方面需求。

職業規劃

大綱

python基礎語法

requests模組,session請求(請求時攜帶動態變化的cookie)

xpath解析(推薦),bs4解析,正規表示式

selenium模組、動作鏈、iframe標籤的注意

selenium操控的無頭瀏覽器及規避對selenium的檢測

驗證碼的處理:雲打碼平台(普通驗證碼,數字字母之類)

超級鷹(更難得驗證碼,比如給出文字「老虎」,驗證碼要求點選圖中所有老虎)

ocr技術(使用tesserocr庫,可以識別難度低的,比如下圖,一般使用此方法時需要處理處理,比如灰度化,二值化)

機器學習訓練模型分析出驗證碼

卷積神經網路訓練模型分析出驗證碼(比機器學習準確度更高)

selenium解決滑動式驗證碼,具體方法是比較驗證碼缺失位置畫素差值,然後獲取位置啊大小啊之類,截圖,加速,減速等行為。

暴力列舉解決宮格式驗證碼(比如各個手機銀行進入時的宮格手勢密碼)

**ip池的維護

多執行緒/多程序 非同步爬蟲

協程爬蟲

scrapy框架

分布式爬蟲(基於scrapy-redis)

增量式爬蟲(利用redis資料庫的set去重)

資料庫:

mysql

mongodb

redis

js逆向破解引數加密

js混淆

案例

美團的浦東商家詳情頁資訊

58同城的簡歷自動投遞

安居客**資訊的採集

**iphone11手機**的採集及實時更新

boss直聘中上海網際網路行業各職位薪資待遇和職位要求

雪球網滬深**滬深一覽增量式爬取(內容在變化)

神州租車**和數量 增量式爬取

信託類**專案型別和規模的爬取

格力空調官網 格力發布 新聞的爬取

衡水市人民**公示公告的爬取

爬蟲工程師轉反爬蟲 如何入行爬蟲工程師

撰文 皓禹在現狀和想要達到的目標之間,總是有一條大河。大部分人花費了巨大的精力在水流裡掙扎,還沒能接近目標,就已經被湍急的水流沖走了。然而,總有少部分人能乘著小船,直達對岸。10年前,從普通學校畢業的我進入了一家小公司,傳統運維的工作重複性太高,特別枯燥。3個月之後,我跳槽了,薪酬是之前的兩倍。學一...

軟體工程師軟技能

一 十步學習法體系 總結下 第1步到第六步主要將學習的目標分成能夠在較短時間內 比如 一周 兩周 完成的小目標,最後通過第7步到第10步反覆學習直到達成目標。二 擁有企業心態 你所能犯的最大錯誤就是相信自己是在為別人工作。這樣一來你對工作的安全感已然盡失。職業發展的驅動力一定是來自個體本身。記住 工...

FPGA工程師的技能樹

前言 最近因為學校要求實習三個月,看了看各種招聘,發現所學知識還是泛而不精,於是選了乙個自己比較感興趣的ic方向,看看fpga工作到底需要些什麼知識和軟實力。知識 精通fpga上verilog或者vhdl開發 verilog and systemverilog 熟悉各種常用介面 uart spi i...