python爬蟲搜尋引擎學習心得

2021-08-20 10:47:01 字數 1777 閱讀 1594

pyton爬蟲打造搜尋引擎的學習心得

1.建立虛擬機器:virtualenv scrapytest

2.啟動虛擬機器:進入虛擬機器:cd scrapytest然後cd scripts然後執行activate.bat,如果退出虛擬機器則執行deactivate.bat

3.用python3.5建立虛擬機器:在虛擬環境scrapytest下scripts下執行virtualenv -p d:\workspace\python3.5.3\python.exe scrapypy3

4.建立python專案:在進入虛擬機器的情況下,執行scrapy startproject articlespider建立python專案

5.映象:

11.安裝requests庫,進入專案根目錄,執行pip install requests

12.爬蟲:自動獲取**資料的程式,關鍵是批量的獲取

13.反爬蟲:使用技術手段防止爬蟲程式的方法

14.誤傷:反爬技術將普通使用者識別為爬蟲,如果誤傷過高,效果再好也不能用

15.攔截:成功攔截爬蟲,一般攔截率越高,誤傷率越高

16.反爬蟲的目的:

1).初級爬蟲:簡單粗暴,不管伺服器壓力,容易弄掛**;

2).資料保護;

3).失控的爬蟲:由於某些情況下,忘記或者無法關閉的爬蟲

4).商業競爭對手

17.安裝隨機切換user-agent進入虛擬環境中,執行pip install fake-useragent

18.西刺免費ip**:提供了好多免費ip**

19.安裝selenium:pip install selenium(selenium也是乙個用於web應用程式測試的工具。selenium測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。)

20.部署環境:在專案路徑下執行scrapy-deploy bobby -p articlespider

21.爬取jobbole**命令:scrapy genspider jobbole blog.jobbole.com

22.在命令列檢視爬取到的資料:先安裝pypiwin32:pip install -i pypiwin32,然後再執行scrapy crawl jobbole

23,在cmd命令下檢視爬取資料:1).scrapy shell

2).title = response.xpath(「/html/body/div[1]/div[3]/div[1]/div[1]/h1」)

3). title

4). 檢視title的值執行title.extract()

5). 檢視title的值執行title.extract()[0]

24.安裝庫 進入虛擬環境執行:pip install -i pillow

25.安裝資料庫驅動:pip install mysqlclient

26.在article虛擬環境中安裝elasticsearch,執行命令:pip install elasticsearch-dsl

27.連線遠端伺服器:telent localhost 8080(8080是埠號)

28.爬蟲停止,暫停:在專案中建立乙個資料夾job_info,然後在控制台啟動虛擬環境,執行scrapy crawl lagou -s jobdir=job_info/001

29.分布式爬蟲的優點:

1).充分利用多機器的寬頻加速爬取

2).充分利用多機的ip加速爬取速度

搜尋引擎 網路爬蟲

原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...

搜尋引擎 網路爬蟲

5 多執行緒 主要目的減少cpu資源的浪費 通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新 拿新資訊,將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池 代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個...

搜尋引擎 網路爬蟲

瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...