java網頁資料爬取

在瀏覽器書籤中有許多經典的東西，有時候什麼忘記了需要去查詢的，也非常方便，但是痛苦的事情是某一天開啟書籤，居然那個頁面不知道飛哪去了，打不開，作為乙個程式設計師，當然不能容忍這種事情發生，那就把它們都爬下來。

首先我們的書籤可能有幾種分類，為了處理方便，可以手動刪除我們不需要的，也可以程式處理一下；以下處理是為了爬取方便，而不是刪除不想要的。

先來看看匯出的html檔案的結構：

personal_*******_folder="true">書籤欄h3>

href=""

add_date="1481296188"

href=""

add_date="1483001064"

add_date="1520685896"

last_modified="1520694188">學習h3>

href=""

add_date="1520694161"

icon="data:image/png;base64,******">csdn-專業it技術社群a>

href=""

add_date="1520694188"

icon="data:image/png;base64,******">開源中國 - 找到您想要的開源專案，分享和交流a>

dl>

在匯出的資料中，base64,*

inputstreamreader reader = null;
bufferedreader br = null;
stringbuffer stringbuffer =new stringbuffer("");
try 
line = br.readline(); // 一次讀入一行資料  
} }  catch (filenotfoundexception e)  catch (ioexception e) finally catch (ioexception e) 
}if(br!=null) catch (ioexception e) 
}}

好了，資料處理完畢，

處理結果如下

href="" add_date="1481296188" href="" add_date="1483001064" href="" add_date="1520694161" icon="data:image/png;base64,******">csdn-專業it技術社群a> href="" add_date="1520694188"
icon="data:image/png;base64,******">開源中國 - 找到您想要的開源專案，分享和交流a>
還是將多餘字元用**代替

private
static
void
parser(stringbuffer stringbuffer) 
fileutil.stringtofile(data, "f:\\"+path+".html");//儲存檔案
}@override
public
void
onfailure() 
});}
else
}}          
}catch( exception e ) 
}

資料儲存完畢，再也不用擔心資料丟失了（只是實現了一點功能，儲存文字，並沒有儲存和js\css檔案，以後有時間了繼續）。

java網頁資料爬取

nodeJs爬取網頁資料

python爬取網頁資料

爬取網頁資料插敘爬取網頁資料，給寶寶取個好名字

java網頁資料爬取

nodeJs爬取網頁資料

python爬取網頁資料

爬取網頁資料 插敘 爬取網頁資料，給寶寶取個好名字

相關推薦

爬取網頁資料插敘爬取網頁資料，給寶寶取個好名字