爬蟲心得(九)

2021-09-25 21:37:48 字數 1610 閱讀 9095

這次是遇到了post爬蟲問題

所以,這次需要解決post的相關問題

1.post和get的區別

a.post請求的引數是不會留在瀏覽器中的,所以post請求比get請求要更加地安全

b.post的引數是不會在url中體現出來的,所以更加安全

c.另乙個區別可能就是post請求的長度沒有限制的,get請求是在url後新增的,因為url是有長度限制的,所以get請求是有長度限制的

d.其他的不太重要的區別,get請求可以快取,並且可以收藏為書籤.post請求則不可快取,不能收藏為書籤.

2.在開發時候的區別

a.postman裡要改請求方式。

post請求方法

若有body,則在body標籤下填入body。

body幾種格式在後面詳細說。

b.程式設計時的區別

若請求新聞列表的時候也需要post請求,則需要重寫requestlist方法

<1>模板中body的配置

<2>如何獲取模板中body的內容

@override

string page = integer.tostring(pagecount + 1);

string body = config.getbody();

body = string.format(body, page);

try

return response.gethtml();

} catch (exception e) {}", url, e);

return null;}}

這倆句就是獲取body的方式。

<3>由於是post請求,所以請求的url是相同的,但是不相同的是post裡的鍵值.

如果就按照這樣的方式請求,自測雖然能夠通過,但是在生成落地檔案的時候,是沒有任何內容的。

因為文章的url是一樣的,所以採集不到資訊。而且無法通過瀏覽器進行檢查。

下面就是乙個錯誤示範!!

string id = article.getarticleurl();

string ret = " ";

string url = "

body = json=;

body = string.format(body,id);

article.setarticleurl(url);

try catch (exception e) {}", url, e);

}這時候就需要乙個能在可以重現的url

獲取的方式很多,可以通過對詳情頁的返回資料進行觀察,或者通過分享按鈕,生成分享鏈結。

舉個分享的例子

url = "";

url = string.format(url, id);

article.setarticleurl(url);

return ret;

通過分享按鈕獲得的鏈結。

之後再將文章url配置成如上型別,這樣沒有落地檔案的問題就解決了。

爬蟲心得(四)

這次採集正好趕上我的畢業,所以,晚了三天才看到郵箱裡面的任務,這次處理很順利。但是,也是自以為很順利,結果還是經歷了一些困難。現在就列一下所遇到的問題 目錄 1.requestdetail函式和processarticle函式的作用 2.處理文章 現的img和video標籤 3.注意 request...

爬蟲新手心得

這兩天開始了解和學習爬蟲,在學習過程中,有以下幾個細節需要記錄 urllib這個模組的使用。在python2中,urllib分為urllib和urllib2兩個版本,我們在轉碼過程中,使用的是urllib這個,其語法為 kw urllib.urlencode 注意,urllib所接收的物件應該是字典...

Python 爬蟲心得1 流程

3 針對反爬制定處理方法 4 編寫 除錯bug,獲取資料 一 建議 二 爬取步驟及思路 1 確定要爬取的目標資料 2 選擇獲取頁面詳情的最優路徑 乙個頁面可能有多個路徑可以到達,在保證能夠拿到全量資料的情況下,優先選擇請求次數少的路徑。比如如下中,可以按三種性質查詢獲得資料,通過分析,按地區總省查詢...