模擬瀏覽器請求網頁資料(獲取html)
提取資料(從html中提取資料)
精煉資料(規範格式,如除空格)
業務實現(對精煉後的資料作需要的處理,如排序)
程式入口
舉個例子:
from urllib import requestimport re
# 貴州人才資訊網招聘崗位的抓取
class spider():
# 目標所在特徵字串,組中的內容即為目標:招聘崗位
root_pattern = 'name="thiszw" href="[\s\s]*?" target="[\s\s]*?" title="([\s\s]*?)"'
# 模擬網頁請求返回網頁資料
url = ""
def __fetch_content(self):
headers =
page1 = request.request(spider.url, headers=headers)
htmls = request.urlopen(spider.url).read()
htmls = str(htmls, encoding="gbk")
return htmls
# 資料提取
def __analyse(self, page):
job_name = re.findall(spider.root_pattern, page)
return job_name
# 業務處理
def __show(self,job_list):
for rank in range(0,len(job_list)):
print('no.'+str(rank+1)+' : '+job_list[rank])
def go(self):
page = self.__fetch_content()
result = self.__analyse(page)
self.__show(result)
if __name__ == '__main__':
spider = spider()
spider.go()
beautiful soup
scrap
爬蟲入門 01 爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的乙隻蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...
python爬蟲學習 01爬蟲介紹
前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...
python爬蟲筆記01
精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...