準備:
beatiful soup庫:該庫可以從html或xml檔案中提取資料,通過轉換器實現常規的文件導航,查詢,修改等操作,該庫需要安裝後使用
目標:
實現過程:
首先使用前先使用urllib.request模組從指定**上讀取html檔案
>>>import urllib.request
>>>from bs4 import beatifulsoup
>>>url = ""
>>>response = urllib.request.urlopen(url)
>>>html = response.read()
>>>soup = beatifulsoup(html,"html.parser")
beatifulsoup需要兩個引數,第乙個引數是所提取資料的所在html或xml檔案,第二個引數是指定解析器,然後使用find_all(href = re.compile("view"))方法來讀取所有包含「view」關鍵字的鏈結(使用正規表示式知識),使用for語句迭代讀取
>>>import re
>>>for each in soup.find_all(href = re.compile("view")):#???
print(each.text,"- >","".join(["",\each["href"]]))
最終**為
for each in soup.find_all(href = re.compile("view")):#???
print(each.text,"- >","".join(["",each["href"]]))
import urllib.request
from bs4 import beatifulsoup
import re
def main():
url = ""
response = urllib.request.urlopen(url)
html = response.read()
soup = beatifulsoup(html,"html.parser")
for each in soup.find_all(href = re.compile("view")):#???
print(each.text,"- >","".join(["",each["href"]]))
if _ _name_ _ == "_ _main_ _": #只有單獨執行該.py檔案才會執行main()
main()
**清單
import urllib.request
import urllib.parse
from bs4 import beatifulsoup
import re
def main():
keyword = urllib.parse.urlencode() #?
response = \
urllib.request.urlopen("/search/word?%s"%\
keyword)
html = response.read()
soup = beatifulsoup(html,"html.parser") #操作檔案中資料,如查詢等
for each in soup.find_all(href = re.compile("view")):
content = ''.join([each.text])
ur12 = ''.join(["",each["href"]])
response2 = urllib.request.urlopen(ur12)
html2 = response2.read()
soup2 = beatifulsoup(html2,"html.parser")
if soup2.h2:
content = ''.join([content,soup2.h2.text])
content = ''.join([content,"->",ur12])
print(content)
if _ _name_ _ == "_ _main_ _": #只有單獨執行該.py檔案才會執行main()
main()
上述程式某些語句語法待繼續學習
python入門 資料爬取
很多人剛開始學習python的時候,都會聽到python能做爬蟲 資料分析等,但是為什麼要用它來做爬蟲有所不知,今天我們就來好好聊聊。做爬蟲的需求一般都是出自於實際應用的需要,比如某某 上有你喜歡的mm,你想把這些高畫質 儲存到本地。比如做安全掃瞄時,一般 都會封ip,那這個時候就需要在 爬取多個 ...
python入門 之教你編寫自動獲取金幣指令碼
來收割金幣。使用burp抓取一下提交的包,如下圖所示 因此我們的目的是寫乙個自動提交心情的python指令碼,提交包中需要包含必要的cookie資訊,隱藏的radom字串,心情文字內容,和檔案,經測試發現檔案可為空。表單中只包含前兩項就可以成功增加金幣,這就更加省事了。文末附有完整python 接下...
Python爬蟲 編寫簡單爬蟲之新手入門
最近整理了一下python的基礎知識,大家一般對 爬蟲 這個詞,一聽就比較熟悉,都知道是爬一些 上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫乙個爬蟲程式 呢?相信很多人是不會的,今天寫乙個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助 廢話不多說,進入正文!1 首先 使...