網頁資訊抓取高階 Jsoup的不足之處

2021-06-29 07:52:25 字數 830 閱讀 4083

今天又遇到乙個網頁資料抓取的任務,給大家分享下。

說道網頁資訊抓取,相信jsoup基本是首選的工具,完全的類jquery操作,讓人感覺很舒服。但是,今天我們就要說一說jsoup的不足。

1、首先我們新建乙個頁面

頁面上觀察是這樣顯示的:

我們審查元素:

如果你看到這樣的頁面,你會覺得拿jsoup來抓取,簡直就是呵呵,小菜一疊,於是我們寫了這樣的**:

@test

public void testuserjsoup()

} catch (ioexception e)

}

你會覺得就這幾行**,輕輕鬆鬆搞定,快快樂樂下班。於是執行發現,其實什麼的抓取不到。

於是我們再回到頁面,開啟頁面源**,也就是上面的html**,你恍然大悟,我靠,body裡面根本沒有資料,難怪抓不到。這就是jsoup的不足,如果jsoup去抓取的頁面的資料,全都是頁面載入完成後,ajax獲取形成的,是抓取不到的。

我們開始編寫類似jsoup的**:

}再看一下執行結果:

完美解決,httpunit其實就相當於乙個沒有ui的瀏覽器,它可以讓頁面上的js執行完成後,再抓取資訊,具體的介紹,google一下就行。主要給大家介紹一種方案!

如果你覺得這篇文章對你有用,就頂乙個~

網頁資訊抓取高階 Jsoup的不足之處

說道網頁資訊抓取,相信jsoup基本是首選的工具,完全的類jquery操作,讓人感覺很舒服。但是,今天我們就要說一說jsoup的不足。1 首先我們新建乙個頁面 頁面上觀察是這樣顯示的 我們審查元素 如果你看到這樣的頁面,你會覺得拿jsoup來抓取,簡直就是呵呵,小菜一疊,於是我們寫了這樣的 test...

jsoup網頁內容抓取分析 2

下面寫些我的使用記錄,希望大家如果能從我的方法中得到啟發,鑑於本人從事開發工作不久,內容可能寫的不是很好。jsoup資料獲取有兩大方法 1.通過分析dom模型的網頁標籤和元素,2.select元素選擇器,類似jquery方式 功能很強大,還支援正規表示式 網頁tag標籤有body,div,table...

android使用jsoup來抓取網頁資料

首先去官網 這次爬取的是某網的資料 本次爬取僅為測試,不得用於商業用途,用於商業用途與本人無關 在瀏覽器中檢視頁面的原始碼,找到我們要爬的資料 整個條目的網頁 如下 1.根據條目的class來定位我們要抓取的資料 elements elementsbyclass doc.getelementsbyc...