不太懂網頁上的專業術語。。。
1.首先檢視頁面源**:檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。
2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求**,請求方法,host,user-agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是否為自己想要的。
3.如果是post方法:要記錄引數裡的資料:postdata={},字典型寫入看到的資料。如果是get方法,檢視引數時,可以是params={},同樣寫入引數。
要爬取的頁面**就是請求**。
4.寫爬蟲語句:
session=requests.session()
url=""
user_agent=""
headers=
#必要的引數也可以寫上
postdata={}
params={}
html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)
text=html.text
print text
html=session.get(url=url,headers=headers,cookies=cookies,params=params)
5.分析獲取的網頁,獲取其中的資料。主要用了requests+xpath的組合,比較容易。實在不行就用正規表示式。
tip:xpath 要獲取標籤中某屬性值,比如a標籤,可以用:x=tree.xpath('//a[@href=""]/@href')。
要獲取標籤之中的文字,可以用:x=tree.xpath('//a[@href=""]/text()')
6.資料存入資料庫
簡單的可以用pymssql模組
conn=pymssql.connect(資料庫引數)
tip:sql語句:要注意變數的應用,可以用%s代替。
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
Python開發簡單爬蟲 學習筆記
1.爬蟲簡介 爬蟲是能夠自動抓取網際網路資訊的程式 2.簡單爬蟲架構 3.url管理器 url管理器 管理待抓取url集合和已抓取url集合 防止重複抓取 防止迴圈抓取 urllib2 python官方基礎模組 requests 第三方包更強大,後期推薦使用 import urllib2 直接請求 ...
python靜態爬蟲概念
1.什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料...