這幾天在學習python怎麼用,就通過寫下爬蟲認識一下python。我爬的是起點中文網的**。
示意圖
①首先模擬瀏覽器向目標網位址傳送get請求,讓**返回html原始碼
②然後通過正規表示式把**的名字和**的章節內容從html原始碼中提取出來
③把提取出來的內容用replace函式清洗乾淨
④把內容放入檔案裡面
import requests
import re
url =
''#模擬瀏覽器傳送http請求
response = requests.get(url)
#網頁原始碼
html = response.content.decode(
'utf-8'
)#**的名稱
title = re.findall(r'《(.*?)》'
,html)
title =
str(title)
title = title.replace(
'[\'',''
)title = title.replace(
'\']',''
)print
(title)
#獲取每一章的資訊(章節,url)
#清洗資料
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
簡單python爬蟲
一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...
Python簡單爬蟲
一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...