分析**css**,使用python從css標籤中提取資料
import requests
from bs4 import beautifulsoup
def parse_page(url):
headers =
response = requests.get(url,headers)
text = response.content.decode('utf-8')
# soup = beautifulsoup(text,'lxml')
# 安裝 html5lib解析: pip list (檢視安裝命令)
# pip install html5lib
soup = beautifulsoup(text, 'html5lib')
conmidtab = soup.find('div',class_='conmidtab')
tables = conmidtab.find_all('table')
for table in tables:
# 獲取table中所有的tr,前面兩個不要,代表下標0和1不要,從下標2的元素開始獲取
trs = table.find_all('tr')[2:]
# for tr in trs:
# enumerate 迴圈的同時,拿出下標index
for index,tr in enumerate(trs):
# 從tr標籤中獲取所有的td標籤
tds = tr.find_all('td')
# tds列表td標籤中,第乙個td標籤中為城市名字
city_td = tds[0]
if index == 0:
city_td = tds[1]
# stripped_strings 獲取標籤內的文字內容
# city_td列表中第乙個內容為城市的名字
city = list(city_td.stripped_strings)[0]
# td標籤中,倒數第二個為溫度,拿出來
temp_td = tds[-2]
# temp_td列表中拿出溫度的文字內容
temp = list(temp_td.stripped_strings)[0]
print()
print("********************==")
break
def main():
urls = [
'','',
'','','']
for url in urls:
parse_page(url)
if __name__ == '__main__':
main()
Python爬蟲例項扒取2345天氣預報
寒假裡學習了一下python爬蟲,使用最簡單的方法扒取需要的天氣資料,對,沒聽錯,最簡單的方法。甚至沒有乙個函式封裝。火狐中右鍵檢視網頁源 沒有發現天氣資料,因此推斷網頁採用的json格式資料。右擊 檢視元素 網路 js,找到了位置 用python爬蟲 為json格式資料儲存下來,如下 coding...
問答系統 1 天氣
最近初步完成了關於天氣的問答系統 主要涉及到天氣查詢 目前處理的是是非問句 因為不同型別的問題,採取不同的處理方式 簡單事實型問題 yes no,who,which,what 可以採用模板匹配的方式 why或how複雜問題 可以採用文字摘要的方式 注意 英文中的how不一定都是複雜問題,具體可以分為...
日精進 2017 12 13 天氣 小雨
一 學習方面 1.今天學習httpmodule與httphandler 2.在學習的過程中發現如下問題 配置檔案需要建立節點後在建立 檔案路徑的大小寫會影響 使用檢視物件session時需要使用acquirerequeststate 二 健康方面 早餐炒粉,水 步行6883 三 工作方面 開班委會關...