Python爬蟲(學習準備)

2022-08-27 18:45:14 字數 1451 閱讀 8295

編碼格式的認識:

字元:各種文字和符號的統稱

字符集:多個字元的集合

字符集包括:ascii字符集,gb2312字符集,gb18030,unicode字符集等

1個字元ascii編碼佔1個位元組,用unicode編碼佔2個位元組

utf-8是unicode的實習方式之一,是一種變長的編碼方式,可以是1,2,3個位元組等

在python中字串分為兩種型別:

str與bytes的轉換:

encode()  #str->bytes

decode()  #bytes->str

a = '華南理工大學廣州學院'

print(type(a))  #b = a.encode()  #引數不填預設utf-8編碼

print(b)  

print(type(b))  #a = b.decode('utf-8')

print(a)  #華南理工大學廣州學院

cookie和session區別:http和https:

https比http更安全,但是效能更低(耗時更長)

url的形式:

http請求格式:

http常見請求頭:

常見響應狀態碼:

爬蟲的分類:

通用爬蟲與聚焦爬蟲的流程:

robots協議:

**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取

瀏覽器傳送http請求的過程:

瀏覽器渲染出來的頁面與爬蟲請求的頁面不一樣

Python學習準備

1,執行 cmd開啟命令提示行,輸入python,如果環境配置好了最下面的一行會出現三個箭頭 2,退出 輸入exit 便會退出到windows命令行內 1,建立資料夾取名為hello.py。注意檔案字尾為 py 2,檔案內編寫print helloword 3,cmd開啟命令列切換到檔案存放的目錄內...

NFC學習 準備

公司現在研發的tablet需要支援nfc功能,android 4.1.1的版本。前段時間nfc還沒有調通,boss讓我研究一下上層支援下。小弟 懂啊。最後換成了另外的同事支援了。由此,我準備利用點時間好好研究下nfc,對這個新興的技術做點了解,研究。以後會把自己研究過程的東西一點一點記錄下來,一方面...

程式設計學習準備

2021.2.2 本科環境工程專業,在即將上大二下學期的時間點決定將來走生物資訊方向。本科大學沒有生物專業方面的設立,計畫在本科打好程式設計基礎,將來科研沒天賦也可以先逃去做程式設計賺錢qwq 首先語言本身的學習,從c開始學起,打好基礎才能走得更遠。從 c和指標 開始看起,快速掌握指標和記憶體管理的...