說道網頁資訊抓取,相信jsoup基本是首選的工具,完全的類jquery操作,讓人感覺很舒服。但是,今天我們就要說一說jsoup的不足。
1、首先我們新建乙個頁面
頁面上觀察是這樣顯示的:
我們審查元素:
如果你看到這樣的頁面,你會覺得拿jsoup來抓取,簡直就是呵呵,小菜一疊,於是我們寫了這樣的**:
@test
public void testuserjsoup()
} catch (ioexception e)
}
?
你會覺得就這幾行**,輕輕鬆鬆搞定,快快樂樂下班。於是執行發現,其實什麼的抓取不到。
於是我們再回到頁面,開啟頁面源**,也就是上面的html**,你恍然大悟,我靠,body裡面根本沒有資料,難怪抓不到。這就是jsoup的不足,如果jsoup去抓取的頁面的資料,全都是頁面載入完成後,ajax獲取形成的,是抓取不到的。
下面給大家推薦另乙個開源專案:httpunit,看名字是用於測試的,但是用來抓取資料也不錯
我們開始編寫類似jsoup的**:
再看一下執行結果:
完美解決,httpunit其實就相當於乙個沒有ui的瀏覽器,它可以讓頁面上的js執行完成後,再抓取資訊,具體的介紹,google一下就行。主要給大家介紹一種方案!
網頁資訊抓取高階 Jsoup的不足之處
今天又遇到乙個網頁資料抓取的任務,給大家分享下。說道網頁資訊抓取,相信jsoup基本是首選的工具,完全的類jquery操作,讓人感覺很舒服。但是,今天我們就要說一說jsoup的不足。1 首先我們新建乙個頁面 頁面上觀察是這樣顯示的 我們審查元素 如果你看到這樣的頁面,你會覺得拿jsoup來抓取,簡直...
jsoup網頁內容抓取分析 2
下面寫些我的使用記錄,希望大家如果能從我的方法中得到啟發,鑑於本人從事開發工作不久,內容可能寫的不是很好。jsoup資料獲取有兩大方法 1.通過分析dom模型的網頁標籤和元素,2.select元素選擇器,類似jquery方式 功能很強大,還支援正規表示式 網頁tag標籤有body,div,table...
android使用jsoup來抓取網頁資料
首先去官網 這次爬取的是某網的資料 本次爬取僅為測試,不得用於商業用途,用於商業用途與本人無關 在瀏覽器中檢視頁面的原始碼,找到我們要爬的資料 整個條目的網頁 如下 1.根據條目的class來定位我們要抓取的資料 elements elementsbyclass doc.getelementsbyc...