在學習了嵩天老師的《python網路爬蟲與資訊提取課程》之後,我自己嘗試按照老師的步驟做了乙個小demo。
url = 「
**如下:
importrequests
from bs4 import
beautifulsoup
#獲得response物件
defgeturltext(url):
r =requests.get(url)
r.raise_for_status()
return
r.text
#獲得url和對應名稱
defgeturllist(ulist,html):
soup = beautifulsoup(html,'
lxml')
res = soup.find_all('
h1',class_ = "
entry-title")
a_soup = beautifulsoup(str(res),'
lxml
')#res是列表,需要轉化為字串。
a = a_soup.find_all('a'
)
for each ina:'
href
'),each.string])
return
ulist
#列印**
defprintfunurl(ulist):
tplt = "
\t^10}
"print(tplt.format("
**","
**名",chr(12288)))
for i in
range(len(ulist)):
u =ulist[i]
print(tplt.format(u[0],u[1],chr(12288)))
#定義主函式
defmain():
ulist =
url = "
"html =geturltext(url)
geturllist(ulist,html)
printfunurl(ulist)
main()
中國大學MOOC 學習筆記(一)
注 本文僅是個人的學習筆記,內容 於中國大學mooc python網路爬蟲與資訊提取 課程 一 京東商品頁面爬取 import requests url try r requests.get url r.raise for status 檢查訪問資訊的狀態碼,200表示正確 將編碼改為可以顯示的編碼...
我的Python筆記(中國大學MOOC)
使用舉例 cd py 檔案路徑下 pyinstaller i 檔案.ico f 檔案.py 生成的檔案dist中有可執行檔案str str 新字元 陣列形式 str str input str str.lower 分割是split 替換是str.replace 新的,目標 留乙個好的文章 try e...
中國大學MOOC 浙大C語言學習筆記05
7.1 陣列運算 陣列的整合初始化 陣列初始化02 int num0 10 陣列的大小 sizeof給出的整個陣列所佔據的內容的大小,單位是位元組 sizeof a sizeof a 0 sizeof a 0 給出的陣列中單個元素的大小,相除得到了陣列的單元個數 一旦修改 中的初始資料,不需要修改遍...