參考xlzd的知乎專欄
# encoding=utf-8
from bs4 import beautifulsoup
import requests
import codecs
download_url = ''
#requests模擬http協議中的get請求,用於獲取目標**的原始碼
def download_page(url):
return requests.get(url).content
#獲取**源**
#bbeautiful是乙個可以從html檔案中提取資料的python庫
def parse_html(html):
#接受html原始碼作為輸入
soup = beautifulsoup(html,"html.parser")
#建立beautifulsoup物件
movie_list_soup = soup.find('ol', attrs=)
#通過剛才的物件查詢有序列表
movie_name_list=
#初始化列表
for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs=)
movie_name = detail.find('span', attrs=).gettext()
#以上請參考**原始碼
#迴圈去尋找每個列表子項並將其加入到列表當中去
next_page = soup.find('span', attrs=).find('a')
if next_page:
return movie_name_list, download_url + next_page['href']
return movie_name_list,none
#print movie_name
def main():
url = download_url
with codecs.open('movies', 'wb', encoding='utf-8') as fp:
while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'\n'.format(movies='\n'.join(movies)))
if __name__ == '__main__':
main()
簡單的爬蟲
這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...
簡單的爬蟲
好久沒有上傳新的部落格了,上上週寫出了爬蟲,但是因為偷懶和末考,一直到今天才回來寫有關這個爬蟲的部落格。原來不了解爬蟲的時候感覺爬蟲好高大上啊,做了之後才發現.哦,好簡單.還有,在這裡要感謝一下虎撲大大,感謝他沒有封我的ip.其實爬蟲很簡單,用到了httpclient還有htmlparser.對ht...
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...