嗯,這次簡單點
突然很想看電影,於是就抄起了python搞了一發豆瓣的電影年度清單,順便統計了評分排名和分類之類的。還算簡單吧
16年電影都在這個鏈結(大概)
'
83%ad%e9%97%a8&sort=time&page_limit=365&page_start=0'
這裡其實是可以get傳輸直接訪問豆瓣的,也能訪問這個鏈結,limit是顯示多少條,設乙個比較大的數字就能反饋全部電影了
大概長這樣
想過用beautifulsoup但是不行,老老實實re匹配去吧
趴下來之後儲存在乙個dict裡面,至於按key排序就比較好玩了。我們可以先記錄一下dict的key生成list,然後對list排序,那麼遍歷這個list對應的dict值就是排好序的了
具體**
d = {}
d['olahiuj'] = 'handsome'
for key in sorted(d.keys()):
print d[key]
推薦用sorted而不是sort,因為它不改變原本的列表
j接下來就是解析抓到的**對應找類別,不說了就是re匹配。這一塊特別慢可以多執行緒,但是注意訪問避免過頻繁盡量像真人一點(笑
r然後呢我們還是用dict來儲存類別和對應的計數,輸出到乙個csv裡面儲存
0python是自帶csv模組的引用就好了
import csv
0之所以選擇csv而不是其他主要是因為csv能用excel編輯瀏覽
0寫操作我們這麼做
with
open('filename.csv', 'wb') as csvfile:
blah = csv.writer(csvfile, dialect = 'excel')
blah.writerow([1, 2, 3])
w為了保證list中的每乙個專案都能處在單獨的列裡,設定dialect為』excel』,還有就是輸出一定要是list(大概?
b本來還想著要視覺化一下資料建個圖什麼的,明天再弄吧。話說同性分類有11部電影是什麼鬼,排名第一是又是什麼鬼
Python python抓取豆瓣電影top250
一直對爬蟲感興趣,學了python後正好看到某篇關於爬取的文章,就心血來潮實戰一把吧。實現目標 抓取豆瓣電影top250,並輸出到檔案中 1.找到對應的url 2.進行頁面元素的抓取 3.編寫 第一步 實現抓取第乙個頁面 第二步 將其他頁面的資訊也抓取到 第三步 輸出到檔案 4.5.結果 1 控制台...
豆瓣電影資料抓取案例
1 位址 豆瓣電影 排行榜 劇情 2 目標 電影名稱 電影評分1 request url 基準url位址 https 2 query string 查詢引數 抓取的查詢引數如下 type 13 電影型別 interval id 100 90action start 0 每次載入電影的起始索引值 0 ...
豆瓣電影分類排行
1 import requests2 匯入lxml使用xpath提取資料 3from lxml import etree 4def douban movies m type,nums 5 6豆瓣電影排行榜爬取 7 89 url m type interval id 100 3a90 action s...