乙隻垂直的小爬蟲

這只垂直的小爬蟲,使用如下實現

實現的思路很簡單,我從主函式開始簡單敘述一下整個執行流程,第一步:收集需要爬取的url位址,容器我選擇的是concurrentlinkedqueue非阻塞佇列,它底層使用unsafe實現,要的就是它執行緒安全的特性

主函式**如下:

static string url = "";
// 新增url任務
public static concurrentlinkedqueueadd( concurrentlinkedqueuequeue)
return queue;
}public static void main(string args) throws ioexception

第二步:把url列表丟執行緒池:

我使用的執行緒池是newcachedthreadpool根據提交的任務數,動態分配執行緒

/**
* @author: changwu
* @date: 2019/3/24 11:13
*/public class downloadhtml

解析rooturl,目的是拿到新聞主頁的url,因為新聞的正文,在那裡面,邊解析遍封裝rootbean

/**
* 解析源html.封裝成一級bean物件並返回
** @param sourcehtml
* @return
*/public static listgetrootbeanlist(string sourcehtml) 
}rootbean.settitle(split[0]);
rootbean.seturl(rooturl + href);
rootbeanlist.add(rootbean);
/*system.out.println();
system.out.println(split[0]);
system.out.println();*/
}return rootbeanlist;
}

類似,處理二級任務,這裡使用到了正規表示式,原來沒好好學,今天用的時候,完全蒙,還好慢慢悠悠整出來了,這塊這要是觀察源html,根據特性,使用jsoup提供的選擇器選擇,剪下,拼接出我們想要的內容,然後封裝

為啥說是垂直的小爬蟲,它只適合爬取我學校新聞,看下面的**,沒辦法,只能拼湊剪下,最坑的是,100條新聞中,99條標題放在裡面,總有那麼一條放在了裡面, 這個時候,就不得不去改剛才寫好的規則

/**
* 解析封裝二級任務
** @param htmlsouce
* @return
*/public static listgetpojobeanbyhtmlsource(string htmlsouce, rootbean bean) 
// 作者
compile = pattern.compile(regex);
matcher = compile.matcher(text);
string author = null;
if (matcher.find()) 
// 出處
compile = pattern.compile(regex);
matcher = compile.matcher(text);
string source = null;
if (matcher.find()) 
// 正文
elements ebody = doc.select(".wp_articlecontent");
string body = ebody.first().text();
// system.out.println(body);
// 封裝
pojobean.setauthor(author);
pojobean.setbody(body);
pojobean.seteditor(editor);
pojobean.setsource(source);
pojobean.seturl(bean.geturl());
pojobean.setposttime(bean.getposttime());
pojobean.settitle(bean.gettitle());
list.add(pojobean);
}return list;
}}

持久化,使用的是底冊的jdbc

/**
* 持久化單個pojo
* @param pojo
*/public static void insertonepojo(pojobean pojo) throws classnotfoundexception, sqlexception

拿到的新的url稱作是二級

public static logger logger = logger.getlogger(tpoolfordownloadrooturl.class);
/***/
public static void downloadroottaskpool(concurrentlinkedqueue queue) 
}} catch (ioexception e) 
}});
}

乙隻垂直的小爬蟲

乙隻有野心的小爬蟲

乙隻爬蟲的產生

乙隻R語言de爬蟲

乙隻垂直的小爬蟲

乙隻有野心的小爬蟲

乙隻爬蟲的產生

乙隻R語言de爬蟲

相關推薦