簡單入門案例
document document = null;
trycatch
(ioexception e)
if(document == null)
return
;//接下來獲取到了document物件,就等於獲取了頁面的所有資訊
對document的操作
通過class獲取乙個元素節點
elements list05 = document.getelementsbyclass(「list05」)
返回乙個陣列elements,本質是乙個arraylist
獲取elements的第幾個元素
element element = elements.get(index);
獲取乙個element下的所有元素…第幾個元素
elements elements = element.children();
element element = element.children(index);
判斷某個元素的內容是否為空
boolean dex = element.hastext()
獲取元素內容
string s = element.text();
獲取元素的html結構
string s = element.html();
選擇子元素下某個標籤
element.child(0).select(「div」)
獲取元素的屬性
string s = element.attr(「src」);
//處理,將讀取到目錄
private
void
dealimage
(element element,string imagename)
/** *
* @param filepath 檔案路徑
* @param imgurl url
*/public
static
void
downimages
(string filepath, string imgurl)
out.
close()
; in.
close()
;}catch
(malformedurlexception e)
catch
(ioexception e)
}
網路爬蟲(二) Jsoup的使用
這裡的getelementsbytags得到的是乙個類似陣列,所以需要取第乙個值,即first,text的內容得到的是標籤內的文字內容,這裡可能會有乙個疑問,為什麼jsoup都可以直接得到網頁的內容了,還需要httpclients closeablehttpclient 因為在實際開發中,要用到多執...
Jsoup簡單爬蟲實戰演練 解析URL
雖然爬取的都是一些特別簡單的資料。但是,為了避免出現什麼經濟糾紛,本人還是選擇以爬取自己的部落格為例來進行資料的爬取。由於本人也是剛開始學習jsoup,如果有什麼不應該出現的問題,歡迎各位批評指正。本人的部落格主頁 按f12鍵檢查 如何爬取網頁中的title標籤內容 爬取meta標籤中,conten...
使用JSOUP實現網路爬蟲 解析乙個body片斷
使用jsoup.parsebodyfragment string html 方法.string html lorem ipsum.document doc jsoup.parsebodyfragment html element body doc.body parsebodyfragment方法建立...