簡單來講,爬蟲就是乙個探測機器,它的基本操作就是模擬人的行為去各個**溜達,點點按鈕,查查資料,或者把看到的資訊揹回來。就像乙隻蟲子在一幢樓裡不知疲倦地爬來爬去。你可以簡單地想象:每個爬蟲都是你的「分身」。就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。
博主之前先提前安裝的anaconda3
pip install scrapy -i
檢視版本
pip list | grep scrapy
在相應的目錄中建立scrapy專案
scrapy startproject 專案名(spider_ekgc)
生成的scrapy檔案結構如下:
生成的檔案結構:
spiders資料夾
定義爬蟲檔案
items.py
定義框架內資料傳輸格式
pipelines.py
資料儲存模組
middlewares.py
中介軟體模組
settings.py
框架配置模組
具體**下次補充……
…然後開啟idea編寫**
注意:python**可能不會提示,所以對**需要一定掌握能力
記錄一次JVM配置優化的案例
上週公司有乙個應用,一到晚上高峰期的時候rt 響應時間 就很長。後來上伺服器看了下jvm的配置,發現運維在啟動引數那裡把 xss給設成了10m。導致每個執行緒占用的記憶體過大,導致記憶體消耗過快,其它執行緒排隊等待的情況。後來把 xss改成1m之後,系統效能有明顯的提高。總結 1.xss引數不可以設...
記錄一次打自己學校的過程
因為用校園網打別的學校被學校提醒了,所以打打自己學校的 為學校網路安全盡乙份力嘛 第一步 資訊收集 fofa搜尋 子網域名稱挖掘 奧利給,一頓操作之後,找到了比較脆弱的 作業系統 windows 技術語言 asp.net 第二步 先來掃瞄一下看看有沒有敏感資訊 還真掃瞄到了,資料庫備份,通過賬號密碼...
記錄一次簡單python爬蟲遇到的問題
1.python版本問題。2.爬蟲ip被封。這次我用了兩種思路。乙個是更換 就是指定header,使用fake useragent包的useragent來隨機使用header。還有一種是使用ip 和的requests方法,不知道為什麼urllib是不可以的。3.儲存問題。是採用mongodb來進行儲...