聚焦爬蟲的設計思路:
1.確定url, 發起請求, 獲取到響應2.資料解析
3.資料持久化
requests模組傳送get請求
#導包import
requests
url = '
'#res就是我們拿到的響應資料
res = requests.get(url=url, params)
響應資料的獲取方式
1.文字形式: res.text2.json形式: res.json()
3.流形式: res.content
re模組解析資料
1.re.findall(r'正規表示式', 'str'): 結果以列表形式返回, 匹配整個字串2.re.search(r'正規表示式', 'str'): 匹配到第乙個結果就返回, 返回的是乙個物件, 使用group取值, 如果未匹配到, 返回none
3.re.match(r'正規表示式', 'str'): 從字串的開頭進行匹配, 返回乙個物件, 使用group進行取值, 如果未匹配到, 返回none
資料持久化: mysql入庫
#導包import
pymysql
#建立連線
conn =pymysql.connect(user, password, host, post, charset, database)
#建立游標
cursor =conn.cursor()
#構建sql語句
sql = "
insert into tname vaules ('%s', '%s', '%s')
"%(title, link, comment)
#執行sql語句
try:
cursor.execute(sql)
#提交事務
conn.commit()
except
exception as e:
(e) #回滾
conn.rollback()
通用爬蟲和聚焦爬蟲
通用爬蟲是搜尋引擎抓取系統 baidu,goole,yahoo等 的重要組成部分 搜尋引擎網路爬蟲的基本工作流程如下 第一步 抓取網頁 1,首先選取一部分的種子url,並將這些url放進抓取url佇列 3,分析已抓取url佇列中url,分析其中的其他url,並將url放入待抓取1url佇列 從而進入...
通用爬蟲和聚焦爬蟲
根據使用場景,網路爬蟲可分為 通用爬蟲 和 聚焦爬蟲 兩種。一 通用爬蟲 二 通用搜尋引擎 search engine 工作原理 通用網路爬蟲 從網際網路中蒐集網頁,採集資訊,這些網頁資訊用於為搜尋引擎建立索 引從而提供支援,它決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響...
聚焦爬蟲工作原理
1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...