反爬以及解決思路

常見的反爬手段和解決思路

明確反反爬的主要思路

反反爬的主要思路就是：盡可能的去模擬瀏覽器，瀏覽器在如何操作，**中就如何去實現。瀏覽器先請求了位址url1，保留了cookie在本地，之後請求位址url2，帶上了之前的cookie，**中也可以這樣去實現。

很多時候，爬蟲中攜帶的headers欄位，cookie欄位，url引數，post的引數很多，不清楚哪些有用，哪些沒用的情況下，只能夠去嘗試，因為每個**都是不相同的。當然在盲目嘗試之前，可以參考別人的思路。（個人小小建議）

2.通過headers欄位來反爬

2.1 通過headers中的user-agent欄位來反爬

通過user-agent欄位反爬的話，只需要給他在請求之前新增user-agent即可，更好的方式是使用user-agent池來解決,我們可以考慮收集一堆user-agent的方式，或者是隨機生成user-agent

2.2 通過referer欄位或者是其他欄位來反爬

通過referer欄位來反爬，我們只需要新增上即可

2.3 通過cookie來反爬

如果目標**不需要登入每次請求帶上前一次返回的cookie，比如requests模組的session

如果目標**需要登入準備多個賬號，通過乙個程式獲取賬號對應的cookie，組成cookie池，其他程式使用這些cookie

3.通過js來反爬

4.通過驗證碼來反爬

通過打碼平台或者是機器學習的方法識別驗證碼。

5.通過ip位址來反爬

同乙個ip大量請求了對方伺服器，有更大的可能性會被識別為爬蟲，對應的通過購買高質量的ip的方式能夠解決問題

6.其他的反爬方式

6.1 通過自定義字型來反爬

6.2 通過css來反爬