先是乾貨
配置好python之後請在cmd裡敲如下命令:
pip install lxml
pip install beautifulsoup4
pip install html5lib
pip install requests
然後是python**,爬取前程無憂網的,
import csv
import requests
from bs4 import beautifulsoup
url = ""
r = requests.get(url)
#f = open("neituiweb2.csv", "a", newline="")
writer = csv.writer(f)
soup = beautifulsoup(r.content, "lxml")
link = soup.find("div", ).find("div", ).next_siblings
# print(soup.get_text())
# sibs = bs.find("table", ).tr.next_sibling.next_sibling
for item in link:
# print(item)
try:
t1= item.find("p", class_='t1').a.text.strip()
t2 = item.find("span", class_='t2').text
t3 = item.find("span", class_='t3').text
t4 = item.find("span", class_='t4').text
t5 = item.find("span", class_='t5').text
writer.writerow([t1, t2, t3, t4, t5])
except:
pass
最後心得:先用find找到單個的內容,之後再用find_all和for來迴圈查詢所有的。
還有就是用find("table", )這種形式,會有很多問題出來,不信可以將find("p", class_='t1')
改一下。
Python 爬取網頁資訊
對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...
qt爬取網頁資訊 簡單幾步完成網頁資訊爬取
什麼是爬蟲 2.爬蟲能幹些什麼 爬蟲能夠做到哪些應用,上面已經提到一點是可以批量爬取網頁的資料資訊,並用於後續業務研究 爬蟲還可以爬取深層次的使用者個人資訊 恭喜你,到這一步就離查水表不遠了 個人理解淺薄請大家補充 3.爬蟲幾大步驟 網頁資料爬蟲 python 3.1 導包 3.2 請求資料 請求資...
Python 爬取網頁
先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...