python2
爬蟲:從網頁上採取資料
爬蟲模組:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正則re
5種資料型別
(1)數字number
(2)字串string
(3)列表list 中文在可迭代物件就是unicode物件
(4)元組tuple()
(5)字典set{}
爬蟲思路:
1.靜態 urlopen開啟網頁------獲取原始碼read
2.requests(模組) get/post請求----獲取原始碼 text()方法 content()方法(建議)
3.bs4 能夠解析html和xml
#-- coding:utf-8 --
from bs4 import beautifulsoup
#1#html="2018.1.8 14:03
"#soup=beautifulsoup(html,'html.parser') #解析網頁
#print soup.div
#2從檔案中讀取
html=''
soup=beautifulsoup(open('index.html'),'html.parser')
print soup.prettify()
4.獲取所需資訊
Python 爬蟲亂碼解決思路
這裡從網頁的壓縮方式提供兩種解決方法。方法1 檢視headers中是否設定 accept encoding gzip,deflate,br 如果有,修改為 accept encoding gzip 方法2 安裝brotlipy。import brotli data brotli.decompress...
構建基礎python爬蟲思路
目的意義 基礎爬蟲分5個模組,使用多個檔案相互配合,實現乙個相對完善的資料爬取方案,便於以後更完善的爬蟲做準備。本文思路 書籍。其 部分 書籍。功能模組 主檔案 爬蟲排程器,通過呼叫其他檔案中的方法,完成最終功能實現。設計思路 定義spiderman類作為爬蟲排程器。輸入根url開始爬取資料然後爬取...
Python網路爬蟲的流程與思路
靜態網頁的爬取過程一般是 傳送請求 獲得頁面 解析頁面 抽取並儲存內容 所以分別需要學習用到的 請求庫 解析庫 儲存庫 urllib requests 我這裡詳細學習的是requests,在某些方面上,requests的確要比urllib更加簡單。import requestslxml xpath ...