昨天才剛學的這個爬蟲的第三方庫,被它的強大所震撼,以下為自己寫的爬蟲的程式:
# coding=utf-8
import urllib2
from bs4 import beautifulsoup
import re
url = ""
response = urllib2.urlopen(url)
soup = beautifulsoup(response)
temp = soup.find_all(name="a",attrs=)
print len(temp)
for i in range(1,len(temp)):
temp_key =
temp_value =
sub_url = url+ temp[i].get('href')
print sub_url
sub_response = urllib2.urlopen(sub_url)
sub_soup = beautifulsoup(sub_response)
name = (sub_soup.find(name="span",attrs = )).string
date = (sub_soup.find(name="span",attrs =)).string
thehead = name+"("+date+")"#thehead是說明星座運勢及日期的
print thehead
temp1 = sub_soup.find(name = "div",attrs = )
print temp1.text #temp1為運勢主體內容
temp2 = (sub_soup.find(name="div",attrs = )).text #temp2為其運勢中需注意的
print temp2
執行時會出現這個錯誤:warning:root:some characters could not be decoded, and were replaced with replacement character.
使用網上的引入sys模組並重寫編碼的那個方法並不可行,引入並重寫後,發現程式執行後根本沒有內容被讀寫出來,希望哪位看到的朋友若知道如何解決能給以提示下,謝謝
後續~~~~
解決方法已找到,就是要在
sub_soup = beautifulsoup(sub_response)
這一句中,加入
from_encoding,具體為
sub_soup = beautifulsoup(sub_response,from_encoding="gbk")
BeautifulSoup 安裝使用
linux環境 1.安裝 方法一 解壓 tar xzvf beautifulsoup4 4.2.0.tar.gz 安裝 進入解壓後的目錄 python setup.py build sudo python setup.py install 方法二 快速安裝 ubuntu sudo apt get i...
BeautifulSoup使用相關知識
1基礎使用,獲取某一 內容的h1標籤 2複雜html解析 print name.get text get text 清除標籤,只保留內容 4通過網際網路採集 外鏈 from urllib.request import urlopen from bs4 import beautifulsoup imp...
使用BeautifulSoup解析HTML
通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...