首先是三大問題,跟搞哲學的差不多:
爬蟲是什麼
爬蟲能做什麼
怎麼學爬蟲
既然是學習,就要做好付出時間和精力在這上面的思想準備;如果是新手,更應該知道接觸新的知識可能會產生挫敗感!沒有一路坎坷,哪有累累碩果!
言歸正傳,學習爬蟲技術,就需要知道他涉及的知識點,再根據自己的實際情況,劃重點,攻克難點,總結要點;自然可以旗開得勝,無往而不勝。
先來個小例子練練手:
import requests
import beautifulsoup
爬蟲的基礎知識:
url (universal resource locator) 統一資源定位符,
http:(hypertext transfer protocol)超文字傳輸協議
html(hypertext markup language)
好了,鋪墊已經做完了,接下來該講講原理了。
學習沒有這麼快的,不要著急!
速成!!!
在這裡沒有!
乙份耕耘,乙份收穫。除非搶劫,侵占別人的勞動成果,據為己有,這是強盜!
install scrapy
sudo python3 -m pip install scrapy
http協議入門 – 阮一峰
requests.session
requests.get
requests.post
url
http報文
請求報文(請求行,+ headers + body),響應報文(狀態行+headers + body)
headers
status_code
context
content
content-type:
text/html:
x-www-form-urlencoded: web 頁面純文字表單的提交方式
multitype/form-data 頁面含有二進位制檔案時的提交方式
匯入包
from bs4 import beautifulsoup
requests and beautifulsoup; 兩個類
1. url: 統一資源定位符;
2. 網頁請求與網頁解析 get and request; request and response
3. html 超文字標記語言 標籤
4. chrome 檢視原始碼工具
5. cookies 與 sessions 的原理,一種加密機制
6. headers 的作用
一種網路傳輸協議,位於tcp/ip的最頂層;
http的工作方式
url 和 http報文:url 格式: 協議型別,伺服器位址(和埠號),路徑
報文格式: 請求報文(請求行,+ headers + body),響應報文(狀態行+headers + body)
request method:
get, post, put, delete, delete, head, etc.
狀態碼: status code : 2xx, 4xx, 5xx
header 首部
python爬蟲學習日記 20180106
1.建立爬蟲工程 scrapy startproject name 2.定義item item是爬蟲的資料模型的 item.py 3.新建spider scrapy genspider 4.編寫爬蟲檔案 主要是start urls和def parse解析方法 5.在settings.py中修改use...
python 3 5 爬蟲日記2
from urllib import request 輸入正規表示式模組 import re page 1 url r request.request url r.add header user agent abc 讀取首頁原碼並命名為content content request.urlopen ...
爬蟲學習日記
由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...