Python爬蟲使用函式

2021-09-29 05:36:59 字數 3084 閱讀 2462

1.open() 函式:開啟檔案

2.write() 函式:寫入內容

3.close()函式:關閉檔案

sp = open("d:/python/spyder/spyder.txt", "w") #開啟檔案

sp.write("os") #向檔案中寫入內容

sp.close() #關閉檔案

4.read()函式: 讀取檔案所有內容

sp = open("d:/python/spyder/spyder.txt", "r")

data = sp.read()

print(data)

sp.close()

5.readline() 函式:讀取一行

sp = open("d:/python/spyder/spyder.txt", "r")

while true:

line = sp.readline()

if len(line) == 0:

break

print(line)

sp.close()

描述了一種字串匹配的模式(pattern),可以用來檢查乙個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。\f

匹配乙個換頁符。

\n匹配乙個換行符。

\r匹配乙個回車符。

\s匹配任何空白字元,包括空格、製表符、換頁符等等。

\s匹配任何非空白字元。

\t匹配乙個製表符。

\v匹配乙個垂直製表符。

\d匹配乙個數字。

\w匹配字母或數字或下劃線或漢字

\b匹配乙個單詞邊界,即字與空格間的位置。

\b非單詞邊界匹配。

()標記乙個子表示式的開始和結束位置。。要匹配這些字元,請使用 \( 和 \)。

*匹配前面的子表示式零次或多次。要匹配 * 字元,請使用 \*。

+匹配前面的子表示式一次或多次。要匹配 + 字元,請使用 \+。

.匹配除換行符 \n 之外的任何單字元。要匹配 . ,請使用 \. 。

[標記乙個中括號表示式的開始。要匹配 [,請使用 \[。

?匹配前面的子表示式零次或一次,或指明乙個非貪婪限定符。要匹配 ? 字元,請使用 \?。

\將下乙個字元標記為或特殊字元、或原義字元、或向後引用、或八進位制轉義符。例如, 'n' 匹配字元 'n'。'\n' 匹配換行符。序列 '\\' 匹配 "\",而 '\(' 則匹配 "("。

^匹配非該字元集合。要匹配 ^ 字元本身,請使用 \^。

{標記限定符表示式的開始。要匹配 {,請使用 \{。

|指明兩項之間的乙個選擇。要匹配 |,請使用 \|。  

1.rearch()函式:匹配單個字串

引數1:模式串

引數2:主串

引數3(可選):模式修正符(忽略大小寫,.....)

import re

pat = "python"

s = "asfdhpython"

res = re.search(pat, s)

print(res)

2.match() 函式:從起始位置開始匹配,且只匹配一次,如果不沒找到,則返回none

import re

pat = "python"

s = "asfdhpython"

res = re.match(pat, s)

print(res)

3.compile() 函式:引數為模式串

4.findall() 函式:查詢出所有符合串

import re

import urllib.request

pat = "p.p"

da = "hasfdjiijogaposhiphpsdifhpadphpsdh"

res = re.compile(pat).findall(da)

print(res)

1.urlopen函式: 開啟某個網頁

引數2(可選)設定超時時間

from urllib import request as req

fil = req.urlopen("",timeout=5)

print(fil.geturl())

2.urlretrieve()函式:爬取網頁到本地

引數1:要爬取的網頁

引數2:本地目錄

from urllib import request as req

req.urlretrieve("",filename="d:/topic_joinus/1.html")

3.urlcleanup()函式:可以將urlretrieve()中的快取清理掉

4.info() 函式:顯示資訊

from urllib import request as req

fil = req.urlopen("")

print(fil.info())

5.getcode() 函式:爬取當前網頁的狀態碼

6.geturl()函式: 當前網頁的url

python爬蟲 使用requests

前面了解了urllib的基本用法,但是其中確實有不方便的地方。比如處理網頁驗證 處理cookies等等,需要寫 opener handler 來進行處理。為了更加方便地實現這些操作,在這裡就有了更為強大的庫requests,有了它,cookies 登入驗證 設定等等的操作都不是事兒。import r...

python 爬蟲(XPATH使用)

xpath xml path language 是一門在xml文件中查詢資訊的語言,可用來在xml文件中對元素和屬性進行遍歷。w3school官方文件 pip install lxml 如果出現網路延遲,可使用清華源進行安裝匯入兩種匯入方式 第一種 直接匯入from lxml import etre...

python爬蟲免登入 爬蟲使用cookie免登陸

由於前程無憂上崗位投遞記錄只保留兩個月,想記錄下。程式 放在github 對於怎麼獲取登陸後的頁面,有兩種思路使用賬號,密碼登陸,如果該 登陸系統簡單的話,沒有驗證碼啥的,有驗證碼的話,可以使用圖形識別庫 使用cookie繞過登陸頁面cookie cookie 複數形態cookies 中文名稱為 小...