python 爬蟲介紹
分類 程式設計技術
一、什麼是爬蟲
爬蟲:一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。
二、python爬蟲架構
url管理器:包括待爬取的url位址和已爬取的url位址,防止重複抓取url和迴圈抓取url,實現url管理器主要用三種方式,通過記憶體、資料庫、快取資料庫來實現。
網頁解析器:將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式(直觀,將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊,當文件比較複雜的時候,該方法提取資料的時候就會非常的困難)、html.parser(python自帶的)、beautifulsoup(第三方外掛程式,可以使用python自帶的html.parser進行解析,也可以使用lxml進行解析,相對於其他幾種來說要強大一些)、lxml(第三方外掛程式,可以解析 xml 和 html),html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。
應用程式:就是從網頁中提取的有用資料組成的乙個應用。
爬蟲系列1 python簡易爬蟲分析
決定寫乙個小的爬蟲系列,本文是第一篇,講爬蟲的基本原理和簡易示例。1 單個網頁的簡易爬蟲 如下 import urllib import re def gethtml url 通過頁面url獲取其對應的html內容 page urllib.urlopen url 開啟頁面 content page....
python介紹及安裝 1 python簡介與安裝
在學習一門語言之前,咱們先了解為什麼我們要學它。python是乙個指令碼語言,語言簡單,相容各版本系統,學習這門語言將對以後的運維日常工作提供極大的便利。1.1 linux 下 python 安裝 root server tar zxf python 2.7.11.tgz root server c...
1,python基礎入門
1.常用操作符 算術操作符,賦值操作符,比較操作符和邏輯操作符 2.數字資料 變數與賦值 數字資料型別 3.流程控制 條件語句 while語句 break語句和continue語句 for迴圈 4.資料結構 標量 序列 對映 集合 列表 列表函式 字串 字串函式 元組 字典 集合 5.檔案讀寫鍍金 ...