pycharm簡介
pycharm是一種python ide,帶有一整套可以幫助使用者在使用python語言開發時提高其效率的工具,比如除錯、語法高亮、project管理、**跳轉、智慧型提示、自動完成、單元測試、版本控制。此外,該ide提供了一些高階功能,以用於支援django框架下的專業web開發。
演算法介紹
(1)複製標題的xpath資訊,寫出標題的通用 xpath 資訊;
(2)開啟指定路徑文件;
(3)訪問指定目標**,以get方式獲取網頁資料;
(4)加上睡眠;
(5)將title值寫入檔案。
具體實現
import requests #匯入requests包
import time
from lxml import etree
# w:只寫的模式,如果沒有檔案將自動建立
with
open
('/users/lxdn/desktop/lwl.txt'
,'w'
,encoding=
'utf-8'
)as f:
for a in
range(1
,6):
url =
''.format
(a) data = requests.get(url)
.text
s=etree.html(data)
file
=s.xpath(
'//*[@id="page_list"]/ul/li'
) time.sleep(5)
for div in
file
: title=div.xpath(
"./div[2]/div/a/span/text()")[
0]# 將 title的值寫入檔案
f.write(
"{}\n"
.format
(title)
)print
(title)
實驗結果(1)目標網頁:小豬租房網
(2)**執行
心得體會
(1)通過本次實訓,我了解了網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。基於網頁之間的鏈結,通過已知的網頁或資料,來對與其有直接或間接鏈結關係的物件(可以是網頁或**等)作出評價的演算法。又分為網頁粒度、**粒度和網頁塊粒度這三種。
(2)在程式設計過程中,我遇到許多問題:空間有限,在receive時就提取去超連結;動態使用緩衝,設定快取大小,當快取滿時候,要寫入檔案,並清空快取;用第三方庫是好,但是自己永遠不知道其中具體細節,開發的時候盡量自己總結摸索演算法,有助於自己綜合能力的提高。總之,在解決問題的過程中進一步熟悉了程式開發流程,提高了自己的程式設計水平和解決問題的能力。
爬蟲專案1 爬取小豬短租資料
看了這個大神的部落格 爬蟲專案合集,自己也動手實踐一下 請求 requests 解析 xpath 非常簡單,直接放 import requests from lxml import etree source url 以北京地區為例 headers 請求頭比較簡單,如果被識別可以換為更複雜的 多加幾個...
Python爬蟲入門 5 爬取小豬短租租房資訊
小豬短租是乙個租房 上面有很多優質的民宿出租資訊,下面我們以成都地區的租房資訊為例,來嘗試爬取這些資料。小豬短租 成都 頁面 按照慣例,先來爬下標題試試水,找到標題,複製xpath。多複製幾個房屋的標題 xpath 進行對比 id page list ul li 1 div 2 div a span...
爬小豬短租發布的房子資訊
通過輸入國內,國外,城市名只能抓取13頁的資訊。木鳥短租可以嘗試抓取,主要裡面有文章 import requests,re,time from lxml import etree 城市列表 獲取每個城市的url url 獲取城市名稱的鏈結 ser input 輸入你要查詢的地區 1 國內 2 海外 ...