三分鐘帶你學會爬蟲

## 深度學習模型訓練極大的依賴資料，當資料量不夠時，可通過網路爬蟲從網上爬取資料。下面以爬取劉亦菲和劉德華資料為例介紹爬蟲：

## **使用步驟如下：

劉亦菲

劉德華

import re
import requests
from urllib import error
from bs4 import beautifulsoup
import os
num = 0
numpicture = 0
file = ''
list = 
def find(url):
global list
print('正在檢測總數，請稍等.....')
t = 0
i = 1
s = 0
while t < 1000:
url = url + str(t)
try:
result = requests.get(url, timeout=7)
except baseexception:
t = t + 60
#import pdb;pdb.set_trace()
continue
else:
result = result.text
pic_url = re.findall('"objurl":"(.*?)",', result, re.s)  # 先利用正規表示式找到url
pic_url = re.findall('"objurl":"(.*?)",', html, re.s)  # 先利用正規表示式找到url
print('經過檢測%s類共有%d張' % (word, tot))
file = word
y = os.path.exists(file)
if y == 1:
print('該檔案已存在，請重新輸入')
print('網路錯誤，請調整網路後重試')
t = t + 60
else:
dowmloadpicture(result.text, word)
t = t + 60
numpicture = numpicture + tm
print('任務完成')

2. 執行**：python3 spider.py

會提示你輸入的數量，結果如下：

3. 結果新建了兩個資料夾，劉亦菲和劉德華。

4. 資料夾裡的內容如下：

三分鐘帶你讀懂 BERT

作者 suleiman khan,ph.d.翻譯胡瑛皓 stone豪校對醬番梨審核詹森李加薪整理立魚王由谷歌公司出品的用於自然語言理解的預訓練bert演算法，在許自然語言處理的任務表現上遠遠勝過了其他模型。bert演算法的原理由兩部分組成，第一步，通過對大量未標註的語料進行非監督的...

沉默三分鐘

網上見此真情之文，藉以自表原文 http www.hecaitou.net p 3018 沉默三分鐘是心祭。那麼多年了，國旗終於為平民而降。那麼多天了，全民哀悼終於實現。與此同時，火炬停止傳遞，因為這不是乙個歡慶的時刻。很多年後回顧2008年，我也許寧可它從日曆中消失。還沒有哪一年和今年一樣，才...

三分鐘帶你看懂prototype原型 ES6高階

1.prototype 定義在js中的類的實現是基於prototype的，基於原型的繼承比基於類的繼承在概念上更為簡單乙個新物件可以繼承乙個舊物件的屬性 2.new 建構函式很短很簡單，要看完嗷 function star uname,age var ldh newstar 劉德華 18 va...

三分鐘帶你學會爬蟲

三分鐘帶你讀懂 BERT

沉默三分鐘

三分鐘帶你看懂prototype原型 ES6高階

相關推薦