總結
隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門
爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它
**如下(示例):
import requests
import re
from lxml import etree
import json
**如下(示例):
def
get_html
(url)
:#進行頭部偽裝,讓瀏覽器認為是瀏覽器訪問
headers =
res = requests.get(url, headers=headers)
res.encoding =
"utf-8"
if res.status_code ==
200:
return res.text
else
:return
none
該處使用的url網路請求的資料。
由於本次**簡單我們把解析和儲存放到一起
**如下(示例):
def
parse_html
(html)
: e = etree.html(html)
urls = e.xpath(
"//div[@class='col1 old-style-col1']/div/a[1]/@href"
) url =
["".format
(url)
for url in urls]
for i in url:
print
(i) data = get_html(i)
title=re.findall(r""
,data,re.s)[0
] title=title.strip(
) tata = re.findall(r'(.*?)
', data, re.m)[0
] tata=tata.replace(""
,"").strip(
)with
open
("json.json"
,'a+'
,encoding=
"utf-8"
)as f:
dict
= f.write(json.dumps(
dict
,ensure_ascii=
false))
f.write(
"\n"
)
if __name__ ==
'__main__'
:#翻頁獲取
爬取笑話大全
簡單練習 多做多練多看 才可以學的更好 拿來練手 不喜勿噴 import requests from bs4 import beautifulsoup urls headers html requests.get urls,headers headers soup beautifulsoup htm...
python 爬蟲 基本抓取
首先,python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取,另外,requests 也是非常有用的。對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用 連線。data requests data為dict,js...
python 爬蟲,抓取小說
coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...