網路基礎知識,socket程式設計,tcp,udp等,參照
讀取網頁html**,並儲存
舊版python中urllib模組內有乙個urlopen方法可開啟網頁,但新版python中沒有了,新版的urllib模組裡面只有4個子模組(error,request,response,parse),urlopen方法位於request子模組下。
urllib提供的功能就是利用程式去執行各種http請求。如果要模擬瀏覽器完成特定功能,需要把請求偽裝成瀏覽器。偽裝的方法是先監控瀏覽器發出的請求,再根據瀏覽器的請求頭來偽裝,user-agent頭就是用來標識瀏覽器的。
# -*- coding: utf-8 -*-
from urllib import request
url = "" #網頁位址
wp = request.urlopen(url) #開啟連線
content = wp.read() #獲取頁面內容
fp = open("test.htm","w+b") #開啟乙個文字檔案
fp.write(content) #寫入資料
fp.close() #關閉檔案
簡單的爬蟲從這裡開始
這裡介紹了:
http和https
瀏覽器傳送http請求的過程
http請求方法
http響應狀態碼
urllib和urllib2的區別:
urllib 和urllib2都是接受url請求的相關模組,但是urllib2可以接受乙個request類的例項來設定url請求的headers,urllib僅可以接受url。
這意味著,你不可以偽裝你的user agent字串等。
urllib提供urlencode方法用來get查詢字串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。
目前的大部分http請求都是通過urllib2來訪問的
python爬蟲常用第三方庫
通用非同步
網路爬蟲框架
其他
網路爬蟲框架
其他
html/xml解析器
清理
文字處理
用於解析和操作簡單文字的庫。
特定格式檔案處理
解析和處理特定文字格式的庫。
自然語言處理
處理人類語言問題的庫。
瀏覽器自動化與**
多重處理
非同步非同步網路程式設計庫
佇列雲計算
電子郵件
電子郵件解析庫
網路位址
網頁內容提取
提取網頁內容的庫。
維基websocket
用於websocket的庫。
dns解析
計算機視覺
**伺服器
其他python工具列表
Linux第十一課
apache 一 虛擬主機 apache可基於ip位址 主機網域名稱 埠號實現提供多個 同時為外部提供訪問服務的技術。使用網域名稱,要在 etc hosts檔案中做本地強制解析 基於埠號,要注意新增用於監聽埠的引數 二 訪問控制 基於源主機名 源ip位址 或源主機上的瀏覽器特徵等資訊對 上的資源繼續...
第十一課 文法
數量的說法 1 計算物品時的說法。11以上用數字計算。2 量詞 計算人 物時,或要表示某種數量時,物件不同使用的量詞也會不同。量詞直接放在數字後面使用。人 計算人數。但是,乙個人時說 人 兩個人時用 人 人 要唸 臺 計算機械,或汽車,自行車等交通工具時使用。枚 計算薄或扁平的物品。紙張,襯衫,盤子...
第十一課C 異常
異常的機制,格式如下 try 後面可以抓取很多和catch 編譯器會根據 引數來進行匹配 catch char s catch int a catch 表示剩下全部的情況 include include using namespace std classa voidk void voidkk voi...