python 爬蟲筆記 簡單靜態

2021-07-12 03:19:35 字數 1056 閱讀 5878

不太懂網頁上的專業術語。。。

1.首先檢視頁面源**:檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。

2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求**,請求方法,host,user-agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是否為自己想要的。

3.如果是post方法:要記錄引數裡的資料:postdata={},字典型寫入看到的資料。如果是get方法,檢視引數時,可以是params={},同樣寫入引數。

要爬取的頁面**就是請求**。

4.寫爬蟲語句:

session=requests.session()

url=""

user_agent=""

headers=

#必要的引數也可以寫上

postdata={}

params={}

html=session.post(url=url,headers=headers,cookies=cookies,data=postdata)

text=html.text

print text

html=session.get(url=url,headers=headers,cookies=cookies,params=params)

5.分析獲取的網頁,獲取其中的資料。主要用了requests+xpath的組合,比較容易。實在不行就用正規表示式。

tip:xpath 要獲取標籤中某屬性值,比如a標籤,可以用:x=tree.xpath('//a[@href=""]/@href')。

要獲取標籤之中的文字,可以用:x=tree.xpath('//a[@href=""]/text()')

6.資料存入資料庫

簡單的可以用pymssql模組

conn=pymssql.connect(資料庫引數)

tip:sql語句:要注意變數的應用,可以用%s代替。

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

Python開發簡單爬蟲 學習筆記

1.爬蟲簡介 爬蟲是能夠自動抓取網際網路資訊的程式 2.簡單爬蟲架構 3.url管理器 url管理器 管理待抓取url集合和已抓取url集合 防止重複抓取 防止迴圈抓取 urllib2 python官方基礎模組 requests 第三方包更強大,後期推薦使用 import urllib2 直接請求 ...

python靜態爬蟲概念

1.什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料...