01 爬蟲入門

模擬瀏覽器請求網頁資料（獲取html）

提取資料（從html中提取資料）

精煉資料（規範格式，如除空格）

業務實現（對精煉後的資料作需要的處理，如排序）

程式入口

舉個例子：

from urllib import request
import re
# 貴州人才資訊網招聘崗位的抓取
class spider():
# 目標所在特徵字串，組中的內容即為目標：招聘崗位
root_pattern = 'name="thiszw" href="[\s\s]*?" target="[\s\s]*?" title="([\s\s]*?)"'
# 模擬網頁請求返回網頁資料
url = ""
def __fetch_content(self):
headers = 
page1 = request.request(spider.url, headers=headers)
htmls = request.urlopen(spider.url).read()
htmls = str(htmls, encoding="gbk")
return htmls
# 資料提取
def __analyse(self, page):
job_name = re.findall(spider.root_pattern, page)
return job_name
# 業務處理
def __show(self,job_list):
for rank in range(0,len(job_list)):
print('no.'+str(rank+1)+' : '+job_list[rank])
def go(self):
page = self.__fetch_content()
result = self.__analyse(page)
self.__show(result)
if __name__ == '__main__':
spider = spider()
spider.go()

beautiful soup

scrap

爬蟲入門 01 爬蟲基礎了解

爬蟲，即網路爬蟲，大家可以理解為在網路上爬行的乙隻蜘蛛，網際網路就比作一張大網，而爬蟲便是在這張網上爬來爬去的蜘蛛咯，如果它遇到資源，那麼它就會抓取下來。想抓取什麼？這個由你來控制它咯。比如它在抓取乙個網頁，在這個網中他發現了一條道路，其實就是指向網頁的超連結，那麼它就可以爬到另一張網上來獲取資料。...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候，想快速搶購火車票成功 2.你是否在網上購物的時候，想快速且精準的定位到口碑質量最好的商品什麼是爬蟲通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。爬蟲的價值實際應用就業爬蟲究竟是合法還是違法的？如何在使用編寫爬蟲的過程中避免進入局子...

python爬蟲筆記01

精通python網路爬蟲筆記下面大部分來自此書，僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部，賦予...

01 爬蟲入門

爬蟲入門 01 爬蟲基礎了解

python爬蟲學習 01爬蟲介紹

python爬蟲筆記01

相關推薦