剛開始參考了一篇文章:python獲取網頁指定內容(beautifulsoup工具的使用方法),自己嘗試後,發現出現錯誤:urllib.error.httperror: http error 418,查詢後發現是:某些網頁有反爬蟲的機制。解決方法參考:python爬蟲的urllib.error.httperror: http error 418錯誤,可以設定乙個headers資訊(user-agent),模擬成瀏覽器去訪問這些**,從而獲得資料。
爬取的**為:豆瓣電影(
檢視網頁原始碼:
("豆瓣電影top250"
+"\n"
+" 影片名 評分 評價人數 鏈結 "
)df_ret = dataframe(columns=
[" 影片名"
,"評分"
,"評價人數"
,"鏈結 "])
count =
0for tag in soup.find_all(
'div'
, class_=
'info'):
m_name = tag.find(
'span'
, class_=
'title'
).get_text(
) m_rating_score =
float
(tag.find(
'span'
, class_=
'rating_num'
).get_text())
m_people = tag.find(
'div'
, class_=
"star"
) m_span = m_people.findall(
'span'
) m_peoplecount = m_span[3]
.contents[0]
m_url = tag.find(
'a')
.get(
'href'
(m_name +
" "
+str
(m_rating_score)
+" "
+ m_peoplecount +
" "
+ m_url)
df_ret.loc[count]
=[m_name,
str(m_rating_score)
,m_peoplecount, m_url]
count = count +
1# 儲存輸出結果到csv
df_ret.to_csv(
'movies_names_set.csv'
, encoding=
'gbk'
(df_ret.head(
))輸出csv檔案格式如下:
Python爬蟲獲取拉勾網招聘資訊
之前寫過乙份爬取拉勾網搜尋 資料分析 相關職位的文章拉勾網職位資訊爬蟲練習 最近入職了一家設計為主的公司,所以想做乙份關於 設計 的資料分析報告,發現直接跑原來的 會爬不到資料,所以稍微修改了一下。本篇主要記錄爬蟲 匯入使用的庫 import requests from bs4 import bea...
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
python爬蟲我要個性網,獲取頭像
python爬蟲學習 提前宣告 請勿他用,僅限個人學習 運用模組有 import requests import re import os 較為常規,適合網路小白。lxml和bs4也是基礎。長話短說。headers link 編寫請求頭資訊 編寫請求頭,和要獲取的 link,一般常用url,只是乙個...