python網路爬蟲與資訊提取學習筆記day3

day3：

只需兩行**解析html或xml資訊具體**實現:day3_1 注意beautifulsoup的b和s需要大寫，因為python大小寫敏感

import requests
r= requests.get("")
r.text
demo = r.text
from bs4 import beautifulsoup
soup = beautifulsoup(demo , "html.parser")
print(soup.prettify())

beautifulsoup庫的基本元素：詳參html的基本資訊

from bs4 import beautifulsoup 語句含義：從bs4庫中引入乙個beautifulsoup的型別

下行遍歷，上行遍歷和平行遍歷：

爬取中國大學排名

import requests
from bs4 import beautifulsoup
import bs4
def gethtmltext(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
return r.text
except:
return ""
def fillunivlist(ulist, html):
soup = beautifulsoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.tag):
tds = tr('td')
def printunivlist(ulist, num):
print("\t\t".format("排名","學校名稱","總分"))
for i in range(num):
u=ulist[i]
print("\t\t".format(u[0],u[1],u[2]))
def main():
uinfo = 
url = ''
html = gethtmltext(url)
fillunivlist(uinfo, html)
printunivlist(uinfo, 20) # 20 univs
main()

Python網路爬蟲與資訊提取（2）爬蟲協議

上一節學習了requests庫，這一節學習robots協議宣告robots協議，一般放在的根目錄下，robots.txt檔案京東robots鏈結 user agent disallow disallow pop html disallow pinpai html?user agent etao...

python網路爬蟲（四）資訊標記與資訊提取

方式說明應用領域 xml最早的通用資訊標記語言，可擴充套件性好，但繁瑣 internet上資訊的互動與傳遞 json 資訊有型別，適合程式處理 js 比xml簡潔移動應用雲端和節點的資訊通訊，無注釋 yaml 資訊無型別，文字資訊比例最高，可讀性好各類系統的配置檔案，有注釋易讀二.資訊提取的...

Python網路爬蟲與資訊提取MOOC學習預備

一 ide 概念 integrated development environment整合開發環境提供了程式開發環境的應用程式，一般包括編輯器編譯器偵錯程式和圖形使用者介面等工具。整合了編寫功能分析功能編譯功能除錯功能等一體化的開發軟體服務套。二 python的ide分類文字工具類...

python網路爬蟲與資訊提取 學習筆記day3

Python網路爬蟲與資訊提取（2） 爬蟲協議

python網路爬蟲（四） 資訊標記與資訊提取

Python網路爬蟲與資訊提取MOOC學習 預備

相關推薦

python網路爬蟲與資訊提取學習筆記day3

Python網路爬蟲與資訊提取（2）爬蟲協議

python網路爬蟲（四）資訊標記與資訊提取

Python網路爬蟲與資訊提取MOOC學習預備