import requests
from bs4 import beautifulsoup as bs
import re
import time
# 列表轉成字串
defget_string
(string_list)
: string =
""for s in string_list:
s = s.replace(
'\r',''
) s = s.replace(
'\n',''
) s = s.replace(
' ','')
iflen
(str
(s))
>2:
string += s[1:
-1]return string
# cookie 自己補充
# 得到html的字串
defget_html
(num)
:# num : 頁數
html_list =
head =
for i in
range
(num)
: time.sleep(2)
# 防止訪問太頻繁,設定等待兩秒
r = requests.get(
""+str
(i *10)
,headers=head)
)return html_list
# 得到摘要及申請資訊列表
defget_info
(htmllist)
: abstract_l =
name_l =
for html in htmllist:
name_list = html.find_all(class_ =
"patentauthorblock"
) abstract_list = html.find_all(class_ =
"patentcontentblock"
) s = re.
compile
(r'>.*?
, re.s)
iflen
(name_list)
==len
(abstract_list)
:for i in
range
(len
(name_list)):
abstract = get_string(re.findall(s,
str(abstract_list[i]))
) name = get_string(re.findall(s,
str(name_list[i]))
)return abstract_l,name_l
# 獲取3頁
88 爬蟲爬取span資訊
我們在爬取網頁之後 有大量的無用的資訊 所以我們需要用正規表示式去篩選一下 我們先來試試普通爬取 var channel make chan bool func main func startspider start int,end int for i start i end i func spid...
python爬蟲(爬取導師資訊)
直譯器 我下的是3.8.2版本 pycharm 我下的是2019.3.3版本 注意 python安裝時要勾選 pycharm安裝時這四個全選上 檢查python是否安裝好可以在cmd命令中輸入python,出現下圖即可 2.爬取網頁資訊 以浙工大為例 codeing utf 8 time 2022 ...
爬蟲反爬機制及反爬策略
參考 爬蟲是一種模擬瀏覽器對 發起請求,獲取資料的方法。簡單的爬蟲在抓取 資料的時候,因為對 訪問過於頻繁,給伺服器造成過大的壓力,容易使 崩潰,因此 維護者會通過一些手段避免爬蟲的訪問,以下是幾種常見的反爬蟲和反反爬蟲策略 爬蟲與反爬蟲,這相愛相殺的一對,簡直可以寫出一部壯觀的鬥爭史。而在大資料時...