python網路爬蟲

前言去掉所有標籤

dr = re.compile(r』]+>』,re.s)

dd = dr.sub(」,jiner)

任意內容/可以匹配多位數字/可以匹配用逗號隔開的數字/可以匹配一位的數字/可以匹配帶小數點的數字/匹配空白符/匹配最後兩位

re.search(『.?([0-9],?[0-9].?[0-9]\s.?.?)$』,dd)

當然，爬蟲還有乙個很關鍵的就通過關鍵字過濾，這裡可以使用字串查詢匹配全文的關鍵字，使用content.find查詢關鍵字，將需要匹配關鍵字全部放入乙個列表中list[ ]，然後通過遍歷查詢，這樣就過濾出相應的容以上的整個過程其實就是獲取url然後過濾最終獲取相應的內容。

5.3入庫mysql

將爬去的內容儲存在資料庫mysql中，這裡需要進行資料庫的連線，然後通過插入資料的方法可以將資料存入mysql,以下是資料庫的連線和資料插入

5.4郵件傳送

將資料儲存在本地資料庫後，還可以實現乙個功能就是郵件傳送資料給指定的使用者。因為本次要實現的是定時爬蟲，每天在不同的時間段定時爬取網頁上更新的資料，然後將我們所需要的資料通過郵件自動發給指定的使用者。python有自帶郵件傳送的模組，可以支援smtp，所以很方便使用，下面是郵件傳送的**。