個人專案,只支援python3.
需要說明的是,本文中介紹的都是小規模資料的爬蟲(資料量<1g),大規模爬取需要會更複雜,本文不涉及這一塊。另外,**細節就不過多說了,只將乙個大概思路以及趟過的坑。
本文中涉及的阿布雲ip隧道及雲打碼平台需要自己註冊,並在code中相應部分取消注釋。
需要在每個模組中建立output資料夾,才能使用,文件結構如下圖所示
遇到的坑:
sogouwechat這個庫只能抓到10個items(自己加入cookies也只能抓10個好像,反正我沒成功的抓多個)
登陸只想到手動掃瞄這一塊,沒有其他更好的方法
在模擬翻頁操作的時候,建議模擬一下頁面滾動
網速不好的情況,要有sleep,要不然chrome會報錯
採取的策略:
selenium模擬登陸,得到搜尋頁面
ajax抓包,構造請求傳送到伺服器
自動打碼(雲打碼,效果還可以)
ip隧道**
翻頁用request構造
遇到的坑:
必須要登陸才能看到所有文獻
打碼失敗的話one more time
資料量有點多,及時儲存資料,我沒有用資料庫,我直接寫到檔案了
專案控制執行模組全部都是在setting檔案中修改配置的。
另外,接受資料爬取業務或者諮詢。
搜狗微信新增搜尋工具爬蟲
注意事項 1 從首頁我們需要輸入關鍵字才可以到達選擇搜尋工具的頁面 2 新增過搜尋工具的鏈結,是不能夠貼上出來再開啟的 會回到首頁 1 在首頁輸入關鍵字,此時還沒有加入搜尋工具。2 加入搜尋工具 廢話不說了,直接上乾貨。通過對搜尋工具這一步進行抓包 此時很驚訝的發現這兩個鏈結和上面請求的鏈結是一樣的...
HttpClient爬蟲 搜狗微信出現驗證碼
更換新的cookie即可解決 設定cookie並傳送請求 hashmap cookiesmap newhashmap for cookie c cookies doc jsoup.connect url cookies cookiesmap get 根據li標籤獲取具體內容 elements lis...
微信資訊接收常見格式摘要
1348831860 1234567890123456 引數 描述 tousername fromusername 傳送方帳號 乙個openid createtime 訊息建立時間 整型 msgtype text content 文字訊息內容 msgid 訊息id,64位整型 1348831860 ...