Jsoup檔案解析入門

2021-08-28 05:53:55 字數 1913 閱讀 4515

xml檔案解析器–jsoup入門

它提供了一套非常省力的api,可通過dom,css以及類似於jquery的操作方法來取出和運算元據。

快速入門步驟:

1. 匯入jar包

2. 獲取document物件

3. 獲取對應的標籤element物件

4. 獲取資料,得到文字

public static void main(string args) throws exception

}

上面是乙個基礎入門案例,通過static document parse​(file in, string charsetname)該方法獲取到

xml檔案的路徑並且指定編碼格式。

物件的使用:

1. jsoup:工具類,可以解析html或xml文件,返回document

parse:解析html或xml文件,返回document

parse​(file in, string charsetname):解析xml或html檔案的。

parse​(string html):解析xml或html字串

parse​(url url, int timeoutmillis):通過網路路徑獲取指定的html或xml的文件物件

2. document:文件物件。代表記憶體中的dom樹

獲取element物件

getelementbyid​(string id):根據id屬性值獲取唯一的element物件

getelementsbytag​(string tagname):根據標籤名稱獲取元素物件集合

getelementsbyattribute​(string key):根據屬性名稱獲取元素物件集合

getelementsbyattributevalue​(string key, string value):根據對應的屬性名和屬性值獲取元素物件集合

3. elements:元素element物件的集合。可以當做 arraylist來使用

4. element:元素物件

1. 獲取子元素物件

getelementbyid​(string id):根據id屬性值獲取唯一的element物件

getelementsbytag​(string tagname):根據標籤名稱獲取元素物件集合

getelementsbyattribute​(string key):根據屬性名稱獲取元素物件集合

getelementsbyattributevalue​(string key, string value):根據對應的屬性名和屬性值獲取元素物件集合

2.獲取父元素物件

element parent​():獲取當前便簽的父節點

2. 獲取屬性值

string attr(string key):根據屬性名稱獲取屬性值

3. 獲取文字內容

string text():獲取文字內容

string html():獲取標籤體的所有內容(包括字標籤的字串內容)

舉例:

xml文件內容如下

<?xml version='1.0' encoding="utf-8" ?>

托兒索3

男 小學生之手5女

兒童劫9未知

通過以上的方法來解決下面兩個問題

1.獲取「上單」的資訊(包括name,age,***)

2.獲取「兒童劫」的位置文字資訊

public static void main(string args) throws ioexception }}

網頁解析之Jsoup

jsoup功能非常強大,可以解析乙個完整的網頁,當然了,也可以解析乙個網頁的一部分,還可以解析乙個字串,文字。具體使用可以參考使用文件,這裡我主要講解如何解析乙個完整的網頁。1.獲取網頁的資料 httpclient client new defaulthttpclient 例項化乙個httpclie...

使用 jsoup 解析HTML

test public void analysishtmlbystring test public void anlysishtmlbyfile throws ioexception element ele doc.getelementbyid btn system.out.println ele....

使用 jsoup 解析HTML

test public void analysishtmlbystring test public void anlysishtmlbyfile throws ioexception element ele doc.getelementbyid btn system.out.println ele....