千峰教育 python爬取網頁小說內容

2021-08-20 14:47:59 字數 2724 閱讀 3044

#從urllib中匯入request庫

from urllib import request

#獲取url

url=""

#urlopen()獲取網頁資訊

response = request.urlopen(url=url)

#讀取網頁內容

html = response.read()

#字符集轉換為utf-8

html = html.decode("utf-8")

#列印輸出

print(html)

執行結果:

其實三步就可以解決:

#從urllib中匯入request庫

import urllib.request

#urlopen()獲取網頁資訊

response = urllib.request.urlopen('')

#從網頁讀取並將字元轉換為utf-8

print(response.read().decode('utf-8'))

結果:

#從urllib中匯入request庫

from urllib import request

#匯入第三方庫chardet

import chardet

#urlopen()獲取網頁資訊

req = request.urlopen("")

#獲取status: 200 ok內容

print(req.getcode())

#讀取網頁內容

html = req.read()

#獲取一些相關

setchar = chardet.detect(html)

print(setchar)

print("\n")

#解碼print(html.decode())

#設定乙個url

url=""

#獲取url內容

req=requests.get(url=url)

print("狀態響應碼",req)

#轉換字元為utf-8

# req.encoding="utf-8"

#轉換成text

html=req.text

#輸出# print(html)

#例項化物件加入網頁資訊 和解析器

bf=beautifulsoup(html,'lxml')

#通過對應的div和class來找到對應的文字

bfs_text=bf.find_all('div',class_='showtxt')

#獲取到乙個列表然後提取內容

texts=bfs_text[0].text

#替換文字的空白為換行

texts=texts.replace("\xa0"*8," \n\n")

#建立文字檔案記得設定字元編碼

file=open("一念永恆.txt",'w',encoding="utf-8")

#寫入檔案

file.write(texts)

#關閉file.close()

結果:

我的**:

import requests

from bs4 import beautifulsoup

import lxml

#設定乙個url

url = ""

#獲取url內容

req = requests.get(url=url)

print("狀態響應碼",req)

#轉換成text

html = req.text

#例項化物件加入網頁資訊 和解析器

bf1 = beautifulsoup(html,"lxml")

#通過對應的div和class來找到對應的文字

bf2_text = bf1.find_all("div",class_="content")

#獲取到乙個列表然後提取內容

texts = bf2_text[0].text

#替換文字的空白為換行

texts = texts.replace("\xa0"*1,"\n\n")

#建立文字檔案記得設定字元編碼

file = open("祭靈.txt",'w',encoding="utf-8")

file.write(texts)

#寫入檔案

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

Python 爬取網頁資訊

對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...