1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import
re
import
requests
#啟動兩個模組,pycharm5.0.1裡貌似不用特別啟動os模組,也可以open#
html
=
requests.get(
""
)
aaa
=
html.text
#從目標**上捕獲源**#
body
=
re.findall(
',aaa,re.s)
#此時你肯定要先看一眼源**,找到你需要找的東西,然後開始「夾逼定理」,還是那句話「夾」最重要,夾的準,基本你的爬蟲就差不多了。#
i
=
0
for
each
in
body:
print
(
"正在列印"
+
str
(i)
+
"**"
)
#這只是告訴你正在正常儲存,起到程序計數作用#
pic
=
requests.get(each)
#用requests.get是正式捕獲每乙個的url**#
#將捕獲下來的儲存住,注意檔案的/,這是乙個很重要的細節!#
fp.write(pic.content)
i
=
i
+
1
fp.close()
***********************************===分割線****************************************=
本人尚且沒有做太多的爬蟲實驗,而且目前的水平也僅僅是抓點和漫畫看看,還沒到資料庫那麼高大上的級別,但是本人目前有乙個心得:就是很多同學偷懶,在「夾逼」的時候,喜歡用和「大錘敲縫」,可是往往敲出來的都不對。這是因為不少網頁的body有好幾個。而且排列方式是
第乙個爬蟲程式總結
網路爬蟲主要分3個大的版塊 抓取,分析,儲存 爬蟲豆瓣讀書 其中注意要點 xlrd xlwt與openpyxl的讀寫效率比較 兩種包對小檔案的讀寫速度差別不大,而面對較大檔案,xlrd xlwt速度明顯優於openpyxl,但因為xlwt無法生成xlsx是個硬傷,所以想要盡量提高效率又不影響結果時,...
第乙個Python爬蟲程式!
跟隨udacity的cs101課程學習,今天學完了unit 3,寫了乙個爬蟲程式 import urllib2 defget next target page start link page.find if start link 1 return none,0 start quote page.fi...
第乙個爬蟲
很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...