好久沒有上傳新的部落格了,上上週寫出了爬蟲,但是因為偷懶和末考,一直到今天才回來寫有關這個爬蟲的部落格。
原來不了解爬蟲的時候感覺爬蟲好高大上啊,做了之後才發現......哦,好簡單......
還有,在這裡要感謝一下虎撲大大,感謝他沒有封我的ip......
其實爬蟲很簡單,用到了httpclient還有htmlparser......
對httpclient(基於jdk的httpconnection)不是很了解,這裡不細說只是用一下[尷尬]。使用htmlparser解析html的頁面,基於jsoup解析頁面。
jsoup很方便,可以直接使用jquery的標籤在頁面中查詢我們所需要的資料
1public
static
void main(string args) throws
ioexception
19 element atag = tr.select("td").get(2).select("a").get(0);
20 string ahref = atag.attr("href");
21//
進入當前頁,爬取我所需要的table資訊。
22 string datahtml = hc.get(ahref,"utf-8");
23//
將獲取到的datahtml(**資料頁)轉換成document
24 document datadoc =htmlparser.parse(datahtml);
25//
獲取當前頁裡的body標籤(這裡得到的其實是乙個集合)
26 elements databodys = datadoc.getelementsbytag("body");
27//
list.get()方法獲取到集合中的元素,即body標籤裡的內容
28 element databody = databodys.get(0);
29//
獲取到body中所有的tr標籤(當然這裡也是集合)
30 elements datatrs = databody.select("tr");
31//
foreach便利所有的tr標籤
32for
(element datatr:datatrs)
37 element datatd = datatr.select("td").get(0).select("a").get(0);
38//
獲取到文字內容
39 string datatdtext =datatd.text();
40system.out.println(datatdtext);41}
42}43 }
在乙個element裡.select()就可以獲取到你想要獲取的class或id或者是html標籤,.text().attr().html()都可以獲取裡面我們想要獲取到的資訊。
這就是簡單的爬蟲,沒有啥演算法,沒有難點,有的只是找規律,自己去思考到底要如何解析你想要解析的頁面資訊。
簡單的爬蟲
參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求,用於獲取目標 的原始碼 def download p...
簡單的爬蟲
這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...