day3:
只需兩行**解析html或xml資訊 具體**實現:day3_1 注意beautifulsoup的b和s需要大寫,因為python大小寫敏感
import requestsbeautifulsoup庫的基本元素:詳參html的基本資訊r= requests.get("")
r.text
demo = r.text
from bs4 import beautifulsoup
soup = beautifulsoup(demo , "html.parser")
print(soup.prettify())
from bs4 import beautifulsoup 語句含義:從bs4庫中引入乙個beautifulsoup的型別
下行遍歷,上行遍歷和平行遍歷:
爬取中國大學排名
import requestsfrom bs4 import beautifulsoup
import bs4
def gethtmltext(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
return r.text
except:
return ""
def fillunivlist(ulist, html):
soup = beautifulsoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.tag):
tds = tr('td')
def printunivlist(ulist, num):
print("\t\t".format("排名","學校名稱","總分"))
for i in range(num):
u=ulist[i]
print("\t\t".format(u[0],u[1],u[2]))
def main():
uinfo =
url = ''
html = gethtmltext(url)
fillunivlist(uinfo, html)
printunivlist(uinfo, 20) # 20 univs
main()
Python網路爬蟲與資訊提取(2) 爬蟲協議
上一節學習了requests庫,這一節學習robots協議 宣告robots協議,一般放在 的根目錄下,robots.txt檔案 京東robots鏈結 user agent disallow disallow pop html disallow pinpai html?user agent etao...
python網路爬蟲(四) 資訊標記與資訊提取
方式 說明應用領域 xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣 internet上資訊的互動與傳遞 json 資訊有型別,適合程式處理 js 比xml簡潔 移動應用雲端和節點的資訊通訊,無注釋 yaml 資訊無型別,文字資訊比例最高,可讀性好 各類系統的配置檔案,有注釋易讀 二.資訊提取的...
Python網路爬蟲與資訊提取MOOC學習 預備
一 ide 概念 integrated development environment整合開發環境 提供了程式開發環境的應用程式,一般包括 編輯器 編譯器 偵錯程式和圖形使用者介面等工具。整合了 編寫功能 分析功能 編譯功能 除錯功能等一體化的開發軟體服務套。二 python的ide分類 文字工具類...