1.open() 函式:開啟檔案
2.write() 函式:寫入內容
3.close()函式:關閉檔案
sp = open("d:/python/spyder/spyder.txt", "w") #開啟檔案
sp.write("os") #向檔案中寫入內容
sp.close() #關閉檔案
4.read()函式: 讀取檔案所有內容
sp = open("d:/python/spyder/spyder.txt", "r")
data = sp.read()
print(data)
sp.close()
5.readline() 函式:讀取一行
sp = open("d:/python/spyder/spyder.txt", "r")
while true:
line = sp.readline()
if len(line) == 0:
break
print(line)
sp.close()
描述了一種字串匹配的模式(pattern),可以用來檢查乙個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。\f
匹配乙個換頁符。
\n匹配乙個換行符。
\r匹配乙個回車符。
\s匹配任何空白字元,包括空格、製表符、換頁符等等。
\s匹配任何非空白字元。
\t匹配乙個製表符。
\v匹配乙個垂直製表符。
\d匹配乙個數字。
\w匹配字母或數字或下劃線或漢字
\b匹配乙個單詞邊界,即字與空格間的位置。
\b非單詞邊界匹配。
()標記乙個子表示式的開始和結束位置。。要匹配這些字元,請使用 \( 和 \)。
*匹配前面的子表示式零次或多次。要匹配 * 字元,請使用 \*。
+匹配前面的子表示式一次或多次。要匹配 + 字元,請使用 \+。
.匹配除換行符 \n 之外的任何單字元。要匹配 . ,請使用 \. 。
[標記乙個中括號表示式的開始。要匹配 [,請使用 \[。
?匹配前面的子表示式零次或一次,或指明乙個非貪婪限定符。要匹配 ? 字元,請使用 \?。
\將下乙個字元標記為或特殊字元、或原義字元、或向後引用、或八進位制轉義符。例如, 'n' 匹配字元 'n'。'\n' 匹配換行符。序列 '\\' 匹配 "\",而 '\(' 則匹配 "("。
^匹配非該字元集合。要匹配 ^ 字元本身,請使用 \^。
{標記限定符表示式的開始。要匹配 {,請使用 \{。
|指明兩項之間的乙個選擇。要匹配 |,請使用 \|。
1.rearch()函式:匹配單個字串
引數1:模式串
引數2:主串
引數3(可選):模式修正符(忽略大小寫,.....)
import re
pat = "python"
s = "asfdhpython"
res = re.search(pat, s)
print(res)
2.match() 函式:從起始位置開始匹配,且只匹配一次,如果不沒找到,則返回none
import re
pat = "python"
s = "asfdhpython"
res = re.match(pat, s)
print(res)
3.compile() 函式:引數為模式串
4.findall() 函式:查詢出所有符合串
import re
import urllib.request
pat = "p.p"
da = "hasfdjiijogaposhiphpsdifhpadphpsdh"
res = re.compile(pat).findall(da)
print(res)
1.urlopen函式: 開啟某個網頁
引數2(可選)設定超時時間
from urllib import request as req
fil = req.urlopen("",timeout=5)
print(fil.geturl())
2.urlretrieve()函式:爬取網頁到本地
引數1:要爬取的網頁
引數2:本地目錄
from urllib import request as req
req.urlretrieve("",filename="d:/topic_joinus/1.html")
3.urlcleanup()函式:可以將urlretrieve()中的快取清理掉
4.info() 函式:顯示資訊
from urllib import request as req
fil = req.urlopen("")
print(fil.info())
5.getcode() 函式:爬取當前網頁的狀態碼
6.geturl()函式: 當前網頁的url
python爬蟲 使用requests
前面了解了urllib的基本用法,但是其中確實有不方便的地方。比如處理網頁驗證 處理cookies等等,需要寫 opener handler 來進行處理。為了更加方便地實現這些操作,在這裡就有了更為強大的庫requests,有了它,cookies 登入驗證 設定等等的操作都不是事兒。import r...
python 爬蟲(XPATH使用)
xpath xml path language 是一門在xml文件中查詢資訊的語言,可用來在xml文件中對元素和屬性進行遍歷。w3school官方文件 pip install lxml 如果出現網路延遲,可使用清華源進行安裝匯入兩種匯入方式 第一種 直接匯入from lxml import etre...
python爬蟲免登入 爬蟲使用cookie免登陸
由於前程無憂上崗位投遞記錄只保留兩個月,想記錄下。程式 放在github 對於怎麼獲取登陸後的頁面,有兩種思路使用賬號,密碼登陸,如果該 登陸系統簡單的話,沒有驗證碼啥的,有驗證碼的話,可以使用圖形識別庫 使用cookie繞過登陸頁面cookie cookie 複數形態cookies 中文名稱為 小...