列幾個簡單的例子,看看就行
urllib庫 基於python3.5
# encoding:utf-8
import urllib.request
def download_data():
url = ""
response = urllib.request.urlopen(url)
print(response.getcode())
if response.getcode() == 200:
print(response.read())
download_data()
執行結果如下
本處只介紹ubuntu下scrapy的環境配置,其它環境下學習的話請自行配置,要求大概都是這樣的。
ubuntu16.04自帶python2.7.11+、3.5.1+
執行如下命令更新就可
sudo apt-get update
sudo apt-get upgrade
解包
sudo -zxvf pycharm-professional-2016.2.3.tar.gz
安裝
sudo sh /pycharm-professional-2016.2.3/bin/pycharm.sh
快捷方式
sudo pip install --upgrade pip
pip更新有問題時,執行如下命令在更新pip就可
sudo rm -rf ~/.pip/cache/
sudo rm -rf /root/.pip/cache
pip install --upgrade twisted
sudo apt-get install libssl-dev
pip install scrapy
慕課網教程
urllib爬蟲例子
scrapy爬蟲框架 二
settings.py開啟pipeline,其中數字代表優先順序 值越小優先順序越高 configure item pipelines see item pipelines qsbk.py coding utf 8 import scrapy class qsbkspider scrapy.spid...
Python高階爬蟲框架Scrapy簡介
scrapy 框架 scrapy是用純python實現乙個為了爬取 資料 提取結構性資料而編寫的應用框架,用途非常廣泛。框架的力量,使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容以及各種,非常之方便。scrapy架構圖 綠線是資料流向 95625f65089e4bc98a26...
爬蟲 一 爬蟲簡介
很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...