「客戶端爬取」發布之後,有鮮花也有質疑,也有很多愛智求真、善於思考的同學在點讚之餘,提出了一些有價值或者覺得有必要一答的問題,包括技術層面和道德層面,本文就主要問題作出解答。爬蟲技術( 一) 一篇文章了解爬蟲技術現狀
爬蟲技術(二) 客戶端爬蟲
爬蟲技術(三) 客戶端爬取
問題二:客戶端爬蟲應用在什麼場景
需求場景我在爬蟲技術二-客戶端爬蟲 中已經講過:
問題三:移動裝置計算能力這麼弱,為什麼非得在客戶端爬取?
問題五:客戶端爬取效率如何?
客戶端爬取是單執行緒,並不適合大規模爬取。其實,在客戶端,你也不應該進行大規模爬取,因為這樣會嚴重消耗使用者流量!
問題六:目前就只支援android/ios嗎?客戶端爬取還有沒有進一步計畫?
我本想將客戶端爬取做成兩部分:
移動端;也就是現在大家看到的。
pc端:面向程式設計師,提供乙個pc端爬取環境,然後這個環境基於v8,帶介面。爬取指令碼和移動端一樣,相互相容,都使用js,共用一套api.
目前 android sdk已開發測試,ios sdk 馬上也會開放。而pc端工具做了70%。由於作者時間精力有限,會先確保移動端sdk穩定可用。
問題七: 客戶端爬取和後台爬取哪個更好?
沒有最好的技術,只有最合適的技術。 客戶端爬取主要是在互動複雜、後台ip限制的情況下有優勢。而後台爬取的優勢在於可以大規模爬取,收集資料。具體選哪個,需要根據自身業務選擇。
問題八:客戶端爬取真的那麼牛叉嗎,是不是吹過了,作者裝逼吧?
對於這種問題,向來是不屑於反駁,因為這個問題已不是單純的討論技術了。不是每乙個人都可以改變世界,我尊敬那些能給這個世界帶來新的東西的人。當然,所有人都有評價的權利。
爬取微博客戶端使用者評論
coding utf 8 filename weibo comment.py date 2018 12 5 13 01 author 風夏 hobby mi mi 貓 import requests import json import time import emoji pip install e...
x forward for 取客戶端ip
如今利用nginx做負載均衡的例項已經很多了,針對不同的應用場合,還有很多需要注意的地方,本文要說的就是在通過cdn 後到達nginx做負載均衡時請求頭中的x forwarded for項到底發生了什麼變化。下圖為簡單的web架構圖 nginx 負載均衡 先來看一下x forwarded for的定...
客戶端localStorage命名衝突問題
我們的前端專案客戶端儲存採用localstorage,恰好在同乙個域下部署了2個前端項 a和b 目,判斷使用者是否登入的資訊都用token欄位儲存在localstorage中。當我們開啟專案a登入後儲存了token,然後非正常退出 關掉瀏覽器視窗或者標籤頁 然後在開啟專案b,問題就出現了,專案b從l...