python培訓 第十一課,網路程式設計。

2021-09-27 19:43:41 字數 1586 閱讀 7189

網路基礎知識,socket程式設計,tcp,udp等,參照

讀取網頁html**,並儲存

舊版python中urllib模組內有乙個urlopen方法可開啟網頁,但新版python中沒有了,新版的urllib模組裡面只有4個子模組(error,request,response,parse),urlopen方法位於request子模組下。

urllib提供的功能就是利用程式去執行各種http請求。如果要模擬瀏覽器完成特定功能,需要把請求偽裝成瀏覽器。偽裝的方法是先監控瀏覽器發出的請求,再根據瀏覽器的請求頭來偽裝,user-agent頭就是用來標識瀏覽器的。

# -*- coding: utf-8 -*-

from urllib import request

url = "" #網頁位址

wp = request.urlopen(url) #開啟連線

content = wp.read() #獲取頁面內容

fp = open("test.htm","w+b") #開啟乙個文字檔案

fp.write(content) #寫入資料

fp.close() #關閉檔案

簡單的爬蟲從這裡開始

這裡介紹了:

httphttps

瀏覽器傳送http請求的過程

http請求方法

http響應狀態碼

urllib和urllib2的區別:

urllib 和urllib2都是接受url請求的相關模組,但是urllib2可以接受乙個request類的例項來設定url請求的headers,urllib僅可以接受url。

這意味著,你不可以偽裝你的user agent字串等。

urllib提供urlencode方法用來get查詢字串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

目前的大部分http請求都是通過urllib2來訪問的

python爬蟲常用第三方庫

通用非同步

網路爬蟲框架

其他

網路爬蟲框架

其他

html/xml解析器

清理

文字處理

用於解析和操作簡單文字的庫。

特定格式檔案處理

解析和處理特定文字格式的庫。

自然語言處理

處理人類語言問題的庫。

瀏覽器自動化與**

多重處理

非同步非同步網路程式設計庫

佇列雲計算

電子郵件

電子郵件解析庫

網路位址

網頁內容提取

提取網頁內容的庫。

維基websocket

用於websocket的庫。

dns解析

計算機視覺

**伺服器

其他python工具列表

Linux第十一課

apache 一 虛擬主機 apache可基於ip位址 主機網域名稱 埠號實現提供多個 同時為外部提供訪問服務的技術。使用網域名稱,要在 etc hosts檔案中做本地強制解析 基於埠號,要注意新增用於監聽埠的引數 二 訪問控制 基於源主機名 源ip位址 或源主機上的瀏覽器特徵等資訊對 上的資源繼續...

第十一課 文法

數量的說法 1 計算物品時的說法。11以上用數字計算。2 量詞 計算人 物時,或要表示某種數量時,物件不同使用的量詞也會不同。量詞直接放在數字後面使用。人 計算人數。但是,乙個人時說 人 兩個人時用 人 人 要唸 臺 計算機械,或汽車,自行車等交通工具時使用。枚 計算薄或扁平的物品。紙張,襯衫,盤子...

第十一課C 異常

異常的機制,格式如下 try 後面可以抓取很多和catch 編譯器會根據 引數來進行匹配 catch char s catch int a catch 表示剩下全部的情況 include include using namespace std classa voidk void voidkk voi...