這次是遇到了post爬蟲問題
所以,這次需要解決post的相關問題
1.post和get的區別
a.post請求的引數是不會留在瀏覽器中的,所以post請求比get請求要更加地安全
b.post的引數是不會在url中體現出來的,所以更加安全
c.另乙個區別可能就是post請求的長度沒有限制的,get請求是在url後新增的,因為url是有長度限制的,所以get請求是有長度限制的
d.其他的不太重要的區別,get請求可以快取,並且可以收藏為書籤.post請求則不可快取,不能收藏為書籤.
2.在開發時候的區別
a.postman裡要改請求方式。
post請求方法
若有body,則在body標籤下填入body。
body幾種格式在後面詳細說。
b.程式設計時的區別
若請求新聞列表的時候也需要post請求,則需要重寫requestlist方法
<1>模板中body的配置
<2>如何獲取模板中body的內容
@override
string page = integer.tostring(pagecount + 1);
string body = config.getbody();
body = string.format(body, page);
try
return response.gethtml();
} catch (exception e) {}", url, e);
return null;}}
這倆句就是獲取body的方式。
<3>由於是post請求,所以請求的url是相同的,但是不相同的是post裡的鍵值.
如果就按照這樣的方式請求,自測雖然能夠通過,但是在生成落地檔案的時候,是沒有任何內容的。
因為文章的url是一樣的,所以採集不到資訊。而且無法通過瀏覽器進行檢查。
下面就是乙個錯誤示範!!
string id = article.getarticleurl();
string ret = " ";
string url = "
body = json=;
body = string.format(body,id);
article.setarticleurl(url);
try catch (exception e) {}", url, e);
}這時候就需要乙個能在可以重現的url
獲取的方式很多,可以通過對詳情頁的返回資料進行觀察,或者通過分享按鈕,生成分享鏈結。
舉個分享的例子
url = "";
url = string.format(url, id);
article.setarticleurl(url);
return ret;
通過分享按鈕獲得的鏈結。
之後再將文章url配置成如上型別,這樣沒有落地檔案的問題就解決了。
爬蟲心得(四)
這次採集正好趕上我的畢業,所以,晚了三天才看到郵箱裡面的任務,這次處理很順利。但是,也是自以為很順利,結果還是經歷了一些困難。現在就列一下所遇到的問題 目錄 1.requestdetail函式和processarticle函式的作用 2.處理文章 現的img和video標籤 3.注意 request...
爬蟲新手心得
這兩天開始了解和學習爬蟲,在學習過程中,有以下幾個細節需要記錄 urllib這個模組的使用。在python2中,urllib分為urllib和urllib2兩個版本,我們在轉碼過程中,使用的是urllib這個,其語法為 kw urllib.urlencode 注意,urllib所接收的物件應該是字典...
Python 爬蟲心得1 流程
3 針對反爬制定處理方法 4 編寫 除錯bug,獲取資料 一 建議 二 爬取步驟及思路 1 確定要爬取的目標資料 2 選擇獲取頁面詳情的最優路徑 乙個頁面可能有多個路徑可以到達,在保證能夠拿到全量資料的情況下,優先選擇請求次數少的路徑。比如如下中,可以按三種性質查詢獲得資料,通過分析,按地區總省查詢...