Java簡單爬蟲示例

步驟簡介

獲取鏈結文字內容：urlconnection例項呼叫getinputstream()獲取輸入流，並返回輸入流(inputstream)物件，初始化給inputstreamreader，將位元組流轉換為字元流，並指定字符集編碼utf-8。bufferedreader從字元流中逐行讀取文字存入string型別。

查重：set集合來判斷查詢到的子串是否重複，如果不重複則新增到集合裡。

讀取輸入流：url類初始化給定查詢到的鏈結，並呼叫openconnection()返回乙個httpurlconnection的例項，用這個例項呼叫getinputstream()獲取輸入流，並初始化給緩衝輸入流bufferedinputstream。

寫入輸出流：建立bytearrayoutputstream例項和byte陣列例項，用bufferedinputstream讀入到byte陣列裡，並快取到位元組陣列輸出流。

儲存資料：fileoutputstream(string name)建立向指定名稱的檔案中寫入資料的輸出檔案流，並初始化到輸出流，然後將位元組陣列中的資料通過outputstream寫入指定位置。

關閉流：對以上的輸入輸出流的關閉close()；

**示例

setimageurlset = new hashset();
urlconnection urlconn;
try 
// system.out.println(src);
pattern p = pattern
.compile("");
matcher m = p.matcher(src);
while (m.find()) 
imageurlset.add(imageurl);
urlconn = new url(imageurl).openconnection();
bufferedinputstream instream = new bufferedinputstream(
urlconn.getinputstream());
bytearrayoutputstream boutstream = new bytearrayoutputstream();
byte buf = new byte[1024];
int size = 0;
while ((size = instream.read(buf)) > 0) 
byte srcbin = boutstream.tobytearray();
string filename = imageurl.replaceall("^.+/", "");
system.out.print(filename+"\t");
outputstream osr = new bufferedoutputstream(
new fileoutputstream("ios7/" + filename));
osr.write(srcbin);
instream.close();
boutstream.close();
osr.close();
}	}} catch (malformedurlexception e)  catch (ioexception e)  catch (interruptedexception e)

Java簡單爬蟲示例

python爬蟲簡單示例

java的簡單爬蟲

Java簡單網頁爬蟲

Java簡單爬蟲示例

python爬蟲簡單示例

java的簡單爬蟲

Java簡單網頁爬蟲

相關推薦