抓取知網摘要 搜狗微信文章 搜狗新聞的爬蟲

2021-09-05 04:30:30 字數 700 閱讀 7920

個人專案,只支援python3.

需要說明的是,本文中介紹的都是小規模資料的爬蟲(資料量<1g),大規模爬取需要會更複雜,本文不涉及這一塊。另外,**細節就不過多說了,只將乙個大概思路以及趟過的坑。

本文中涉及的阿布雲ip隧道及雲打碼平台需要自己註冊,並在code中相應部分取消注釋。

需要在每個模組中建立output資料夾,才能使用,文件結構如下圖所示

遇到的坑:

sogouwechat這個庫只能抓到10個items(自己加入cookies也只能抓10個好像,反正我沒成功的抓多個)

登陸只想到手動掃瞄這一塊,沒有其他更好的方法

在模擬翻頁操作的時候,建議模擬一下頁面滾動

網速不好的情況,要有sleep,要不然chrome會報錯

採取的策略:

selenium模擬登陸,得到搜尋頁面

ajax抓包,構造請求傳送到伺服器

自動打碼(雲打碼,效果還可以)

ip隧道**

翻頁用request構造

遇到的坑:

必須要登陸才能看到所有文獻

打碼失敗的話one more time

資料量有點多,及時儲存資料,我沒有用資料庫,我直接寫到檔案了

專案控制執行模組全部都是在setting檔案中修改配置的。

另外,接受資料爬取業務或者諮詢。

搜狗微信新增搜尋工具爬蟲

注意事項 1 從首頁我們需要輸入關鍵字才可以到達選擇搜尋工具的頁面 2 新增過搜尋工具的鏈結,是不能夠貼上出來再開啟的 會回到首頁 1 在首頁輸入關鍵字,此時還沒有加入搜尋工具。2 加入搜尋工具 廢話不說了,直接上乾貨。通過對搜尋工具這一步進行抓包 此時很驚訝的發現這兩個鏈結和上面請求的鏈結是一樣的...

HttpClient爬蟲 搜狗微信出現驗證碼

更換新的cookie即可解決 設定cookie並傳送請求 hashmap cookiesmap newhashmap for cookie c cookies doc jsoup.connect url cookies cookiesmap get 根據li標籤獲取具體內容 elements lis...

微信資訊接收常見格式摘要

1348831860 1234567890123456 引數 描述 tousername fromusername 傳送方帳號 乙個openid createtime 訊息建立時間 整型 msgtype text content 文字訊息內容 msgid 訊息id,64位整型 1348831860 ...