初步嘗試python爬蟲

一直想學習爬蟲

直到最近兩天才開始了學習…

以下嘗試了requests和beautifulsoup的基本用法

抓取了豆瓣新書速遞的並以書名對進行命名

請各位看官多多指教(如果有人看的話…)

import requests
from bs4 import beautifulsoup as bs
url=''
response=requests.get(url) #獲取html檔案
soup=bs(response.content,'lxml') #建立beautifulsoup物件
href=soup.body.find_all('img')  #html解析得到鏈結位址
name=soup.body.find_all('div',)#獲取書名
#建立列表儲存書名和鏈結
book_title=
book_url=
for i in name:
for i in href:
#儲存for i in range(len(book_url)):    
				python抓取初步嘗試
pattern用了示例中例子，發現有些不對，自己修改了一下pattern import urllib import urllib2 import re page 1 url xx str page user agent mozilla 4.0 compatible msie 5.5 windows ...
				gearman初步嘗試
網上安裝使用的資料已經一堆了 這個也給大家彙總一下，比較高階的幾個。在乙個別人安裝的gearman系統下，進入root許可權 搜尋gearman所在路徑 whereis gearman 得到gearman usr bin gearman usr share man man1 gearman.1.gz...
				Docker Remote API 初步嘗試
1 首先是安裝 docker 這裡就不說了 2 檢視一下 docker api的版本 sudo docker version client version 1.10.2 api version 1.22 go version go1.5.3 git commit c3959b1 built mon ...

初步嘗試python爬蟲

python抓取初步嘗試

gearman初步嘗試

Docker Remote API 初步嘗試

相關推薦