python爬蟲搜尋引擎學習心得

pyton爬蟲打造搜尋引擎的學習心得

1.建立虛擬機器：virtualenv scrapytest

2.啟動虛擬機器:進入虛擬機器：cd scrapytest然後cd scripts然後執行activate.bat,如果退出虛擬機器則執行deactivate.bat

3.用python3.5建立虛擬機器：在虛擬環境scrapytest下scripts下執行virtualenv -p d:\workspace\python3.5.3\python.exe scrapypy3

4.建立python專案：在進入虛擬機器的情況下，執行scrapy startproject articlespider建立python專案

5.映象：

11.安裝requests庫，進入專案根目錄，執行pip install requests

12.爬蟲:自動獲取**資料的程式,關鍵是批量的獲取

13.反爬蟲:使用技術手段防止爬蟲程式的方法

14.誤傷:反爬技術將普通使用者識別為爬蟲,如果誤傷過高,效果再好也不能用

15.攔截:成功攔截爬蟲,一般攔截率越高,誤傷率越高

16.反爬蟲的目的:

1).初級爬蟲:簡單粗暴,不管伺服器壓力,容易弄掛**;

2).資料保護;

3).失控的爬蟲:由於某些情況下,忘記或者無法關閉的爬蟲

4).商業競爭對手

17.安裝隨機切換user-agent進入虛擬環境中,執行pip install fake-useragent

18.西刺免費ip**:提供了好多免費ip**

19.安裝selenium:pip install selenium(selenium也是乙個用於web應用程式測試的工具。selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。)

20.部署環境：在專案路徑下執行scrapy-deploy bobby -p articlespider

21.爬取jobbole**命令:scrapy genspider jobbole blog.jobbole.com

22.在命令列檢視爬取到的資料：先安裝pypiwin32:pip install -i pypiwin32,然後再執行scrapy crawl jobbole

23,在cmd命令下檢視爬取資料：1).scrapy shell

2).title = response.xpath(「/html/body/div[1]/div[3]/div[1]/div[1]/h1」)

3). title

4). 檢視title的值執行title.extract()

5). 檢視title的值執行title.extract()[0]

24.安裝庫進入虛擬環境執行：pip install -i pillow

25.安裝資料庫驅動：pip install mysqlclient

26.在article虛擬環境中安裝elasticsearch,執行命令：pip install elasticsearch-dsl

27.連線遠端伺服器：telent localhost 8080(8080是埠號)

28.爬蟲停止，暫停：在專案中建立乙個資料夾job_info,然後在控制台啟動虛擬環境，執行scrapy crawl lagou -s jobdir=job_info/001

29.分布式爬蟲的優點：

1).充分利用多機器的寬頻加速爬取

2).充分利用多機的ip加速爬取速度

搜尋引擎網路爬蟲

原文出自瀏覽器和網路爬蟲是兩種不同的網路客戶端，都以相同的方式來獲取網頁 1 首先，客戶端程式連線到網域名稱系統 dns 伺服器上，dns伺服器將主機名轉換成ip 位址。2 接下來，客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個不同程序程式在執行，每個程序程式都在監聽網路以發現新的選...

搜尋引擎網路爬蟲

5 多執行緒主要目的減少cpu資源的浪費通過網路爬蟲獲取網域名稱，得到網域名稱之後，查詢，對比，存到資料庫中，更新拿新資訊，將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池代替我們管理執行緒，相當於乙個執行緒框架，執行緒池中有乙個...

搜尋引擎網路爬蟲

瀏覽器和網路爬蟲是兩種不同的網路客戶端，都以相同的方式來獲取網頁 1 首先，客戶端程式連線到網域名稱系統 dns 伺服器上，dns伺服器將主機名轉換成ip 位址。2 接下來，客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個不同程序程式在執行，每個程序程式都在監聽網路以發現新的選接。各個程...

python爬蟲搜尋引擎學習心得

搜尋引擎 網路爬蟲

搜尋引擎 網路爬蟲

搜尋引擎 網路爬蟲

相關推薦

搜尋引擎網路爬蟲

搜尋引擎網路爬蟲

搜尋引擎網路爬蟲