學爬蟲之前首先知道什麼是爬蟲:
ret.content 按照位元組顯示
ret.text 按照字串顯示
注:以上內容跟下面無關
1.新建乙個python專案spyder(名字自起)
2.點選file中的settings
3.點選project:spyder下的project interpreter
4.安裝bs4和requests
5.在1.py中進行導包
6.在1.py中用requests偽造瀏覽器行為,注意ret是乙個物件,
7.新增html.parser內建直譯器,目前市場上有兩中內建直譯器分別是html.parser和lxml,lxml需要我們單獨安裝。優點:速度更快.一般情況我建議優先使用html。parser
8,點選**開啟f12,複製一下id
9.找到div
10.進行處理,同理也可以將li.find("img")改為li.find("a")等等,也可以進行修改div.find_all(name='li')為div.find_all(name='ul')等等靠自己發掘
注意:不到萬不得已避免使用正規表示式。
使用bs4就能完成html解析,解析之後就變成乙個物件
Python簡單爬蟲學習
爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
Python開發簡單爬蟲 學習筆記
1.爬蟲簡介 爬蟲是能夠自動抓取網際網路資訊的程式 2.簡單爬蟲架構 3.url管理器 url管理器 管理待抓取url集合和已抓取url集合 防止重複抓取 防止迴圈抓取 urllib2 python官方基礎模組 requests 第三方包更強大,後期推薦使用 import urllib2 直接請求 ...