08 網路爬蟲

原理：httprequest-->

新聞伺服器

--dom

文件-->

爬蟲應用

--dom

解析--

資料庫

網路爬蟲之dom解析：

document--element--elements

jsoup：

html

解析器;

匯入jsoup-1.6.3.jar

網路爬蟲的步驟：

//1

網路請求

請求url

//2

得到dom文件

document document = jsoup.connect(

"url"

).get();

//3

解析dom文件

//編寫元素選擇器

類似於jquery

選擇器

string selector=

"div[class=login]";//

類選擇器 //

屬性選擇器：元素型別

[attr=value] //

多級選擇器：元素1型別

[attr=value]>元素2

型別[attr=value]

//id

選擇器：

#id

//選擇元素

elements elements = document.select(selector);

for(element element : elements )

0302網路爬蟲

1 正規表示式通用的字串表達框架，簡潔表達一組字串的表示式。針對字串表達簡潔和特徵思想的工具。判斷某字串的特徵歸屬。主要應用在字串匹配中正規表示式在文字處理中常用表達文字型別的特徵病毒入侵等同時查詢或替換一組字串匹配字串的全部或部分。正規表示式的使用編譯將符合正規表示式語法...

16 網路爬蟲

爬取整個靜態網頁並存入檔案。第乙個引數是要帶協議 http 二三引數可選,意思暫時不知道動態的暫時不會。加request import urllib2 request urllib2.request response urllib2.urlopen request print response...

1 網路爬蟲

網路爬蟲 web crawler 是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或指令碼。大資料時代，資訊的採集是一項重要的工作，而網際網路的資料是海量的，如果單純靠人力進行資訊採集，不僅低效繁瑣，蒐集的成本也會提高。如何自動高效地獲取網際網路中我們感興趣的資訊並為我們所用是乙個重要的問題，而...

08 網路爬蟲

0302網路爬蟲

16 網路爬蟲

1 網路爬蟲

相關推薦