## 深度學習模型訓練極大的依賴資料,當資料量不夠時,可通過網路爬蟲從網上爬取資料。下面以爬取劉亦菲和劉德華資料為例介紹爬蟲:
## **使用步驟如下:
劉亦菲
劉德華
import re
import requests
from urllib import error
from bs4 import beautifulsoup
import os
num = 0
numpicture = 0
file = ''
list =
def find(url):
global list
print('正在檢測總數,請稍等.....')
t = 0
i = 1
s = 0
while t < 1000:
url = url + str(t)
try:
result = requests.get(url, timeout=7)
except baseexception:
t = t + 60
#import pdb;pdb.set_trace()
continue
else:
result = result.text
pic_url = re.findall('"objurl":"(.*?)",', result, re.s) # 先利用正規表示式找到url
pic_url = re.findall('"objurl":"(.*?)",', html, re.s) # 先利用正規表示式找到url
print('經過檢測%s類共有%d張' % (word, tot))
file = word
y = os.path.exists(file)
if y == 1:
print('該檔案已存在,請重新輸入')
print('網路錯誤,請調整網路後重試')
t = t + 60
else:
dowmloadpicture(result.text, word)
t = t + 60
numpicture = numpicture + tm
print('任務完成')
2. 執行**:python3 spider.py
會提示你輸入的數量,結果如下:
3. 結果新建了兩個資料夾,劉亦菲和劉德華。
4. 資料夾裡的內容如下:
三分鐘帶你讀懂 BERT
作者 suleiman khan,ph.d.翻譯 胡瑛皓 stone豪 校對 醬番梨 審核 詹森 李加薪 整理 立魚王 由谷歌公司出品的用於自然語言理解的預訓練bert演算法,在許自然語言處理的任務表現上遠遠勝過了其他模型。bert演算法的原理由兩部分組成,第一步,通過對大量未標註的語料進行非監督的...
沉默三分鐘
網上見此真情之文,藉以自表 原文 http www.hecaitou.net p 3018 沉默三分鐘是心祭。那麼多年了,國旗終於為平民而降。那麼多天了,全民哀悼終於實現。與此同時,火炬停止傳遞,因為這不是乙個歡慶的時刻。很多年後回顧2008年,我 也許寧可它從日曆中消失。還沒有哪一年和今年一樣,才...
三分鐘帶你看懂prototype原型 ES6高階
1.prototype 定義 在js中的類的實現是基於prototype的,基於原型的繼承比基於類的繼承在概念上更為簡單 乙個新物件可以繼承乙個舊物件的屬性 2.new 建構函式 很短很簡單,要看完嗷 function star uname,age var ldh newstar 劉德華 18 va...