聚焦爬蟲的設計思路

聚焦爬蟲的設計思路:

1.確定url, 發起請求, 獲取到響應

2.資料解析

3.資料持久化

requests模組傳送get請求

#
導包import
requests
url = '
'#res就是我們拿到的響應資料
res = requests.get(url=url, params)

響應資料的獲取方式

1.文字形式: res.text
2.json形式: res.json()
3.流形式: res.content

re模組解析資料

1.re.findall(r'正規表示式', 'str'): 結果以列表形式返回, 匹配整個字串

2.re.search(r'正規表示式', 'str'): 匹配到第乙個結果就返回, 返回的是乙個物件, 使用group取值, 如果未匹配到, 返回none

3.re.match(r'正規表示式', 'str'): 從字串的開頭進行匹配, 返回乙個物件, 使用group進行取值, 如果未匹配到, 返回none

資料持久化: mysql入庫

#
導包import
pymysql
#建立連線
conn =pymysql.connect(user, password, host, post, charset, database)
#建立游標
cursor =conn.cursor()
#構建sql語句
sql = "
insert into tname vaules ('%s', '%s', '%s')
"%(title, link, comment)
#執行sql語句
try:
cursor.execute(sql)
#提交事務
conn.commit()
except
exception as e:
print
(e)    #回滾
conn.rollback()

通用爬蟲和聚焦爬蟲

通用爬蟲是搜尋引擎抓取系統 baidu,goole,yahoo等的重要組成部分搜尋引擎網路爬蟲的基本工作流程如下第一步抓取網頁 1，首先選取一部分的種子url，並將這些url放進抓取url佇列 3，分析已抓取url佇列中url,分析其中的其他url,並將url放入待抓取1url佇列從而進入...

通用爬蟲和聚焦爬蟲

根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種。一通用爬蟲二通用搜尋引擎 search engine 工作原理通用網路爬蟲從網際網路中蒐集網頁，採集資訊，這些網頁資訊用於為搜尋引擎建立索引從而提供支援，它決定著整個引擎系統的內容是否豐富，資訊是否即時，因此其效能的優劣直接影響...

聚焦爬蟲工作原理

1 聚焦爬蟲工作原理及關鍵技術概述相對於通用網路爬蟲，聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...

聚焦爬蟲的設計思路

通用爬蟲和聚焦爬蟲

通用爬蟲和聚焦爬蟲

聚焦爬蟲工作原理

相關推薦