風鈴蟲入門教程快速建立風鈴蟲

風鈴蟲例項主要有以下兩種構建方式

//建立乙個提取規則
//該提取規則標識使用 xpath提取器進行提取，xpath的表示式為 //h1[@class='topic-_xj6visr']/text() ， 該提取提取器的作用順序是0
fieldextractrule extractrule = new fieldextractrule(rule.xpath, "//h1[@class='topic-_xj6visr']/text()", "", 0);
//建立乙個提取項
contentitem contentitem = new contentitem();
contentitem
.setfiledname("name") //提取項**，不能為空
.setname("新聞標題") //提取項名字，可以不設定
.setrules(arrays.aslist(extractrule)); //設定提取規則
//建立乙個風鈴蟲例項
crawlerbuilder builder = crawlerbuilder.create()
.starturl("") //風鈴蟲的起始鏈結
// 風鈴蟲會將每次請求的網頁的內容中的url先全部提取出來，然後將完全匹配此規則的鏈結放入鏈結池，作為下次請求的種子鏈結。
// 如果不設定則表示提取鏈結中所有包含網域名稱關鍵字（例如此例中的ifeng）的鏈結放入鏈結池
.addlinkrule("http[s]?://news\\.ifeng\\.com/.*")//鏈結提取規則，多可新增多個鏈結提取規則，
//可以設定多個內容頁的規則，多個內容頁規則之間用半形逗號隔開
//只要內容頁url中完全匹配此規則就進行內容提取，如果不設定標識提取網域名稱下所有的鏈結
.extracturl("https://news\\.ifeng\\.com/c/[a-za-z0-9]+") //內容頁的規則，
.addextractitem(contentitem) //增加乙個提取項，風鈴蟲可以設定多個提取項，這裡為了演示只設定了乙個提取項
.interval(8);= crawlerbuilder.create()
.starturl("") //風鈴蟲的起始鏈結
// 風鈴蟲會將每次請求的網頁的內容中的url先全部提取出來，然後將完全匹配此規則的鏈結放入鏈結池，作為下次請求的種子鏈結。
// 如果不設定則表示提取鏈結中所有包含網域名稱關鍵字（例如此例中的ifeng）的鏈結放入鏈結池
.addlinkrule("http[s]?://news\\.ifeng\\.com/.*")//鏈結提取規則，多可新增多個鏈結提取規則，
//可以設定多個內容頁的規則，多個內容頁規則之間用半形逗號隔開
//只要內容頁url中完全匹配此規則就進行內容提取，如果不設定標識提取網域名稱下所有的鏈結
.extracturl("https://news\\.ifeng\\.com/c/[a-za-z0-9]+") //內容頁的規則，
.addextractitem(contentitem) //增加乙個提取項，風鈴蟲可以設定多個提取項，這裡為了演示只設定了乙個提取項
.interval(8);//每次進行爬取時的平均間隔時間，單位為秒，如果不設定則使用預設時間10秒，此值時為了防止抓取頻率太高被伺服器**
//風鈴蟲規則資訊
crawlerrule rule = builder.build();
//構建乙個簡單的風鈴蟲例項
crawler crawler = crawler.create(rule);

//建立乙個提取規則 //該提取規則標識使用 xpath提取器進行提取，xpath的表示式為 //h1[@class='topic-_xj6visr']/text() ，該提取提取器的作用順序是0 fieldextractrule extractrule = new fieldextractrule(rule.xpath, "//h1[@class='topic-_xj6visr']/text()", "", 0); //建立乙個提取項 contentitem contentitem = new contentitem(); contentitem .setfiledname("name") //提取項**，不能為空 .setname("新聞標題") //提取項名字，可以不設定 .setrules(arrays.aslist(extractrule)); //設定提取規則 //建立乙個風鈴蟲例項 crawlerbuilder builder = crawlerbuilder.create() .starturl("") //風鈴蟲的起始鏈結 // 風鈴蟲會將每次請求的網頁的內容中的url先全部提取出來，然後將完全匹配此規則的鏈結放入鏈結池，作為下次請求的種子鏈結。 // 如果不設定則表示提取鏈結中所有包含網域名稱關鍵字（例如此例中的ifeng）的鏈結放入鏈結池 .addlinkrule("http[s]?://news\\.ifeng\\.com/.*")//鏈結提取規則，多可新增多個鏈結提取規則， //可以設定多個內容頁的規則，多個內容頁規則之間用半形逗號隔開 //只要內容頁url中完全匹配此規則就進行內容提取，如果不設定標識提取網域名稱下所有的鏈結 .extracturl("https://news\\.ifeng\\.com/c/[a-za-z0-9]+") //內容頁的規則， .addextractitem(contentitem) //增加乙個提取項，風鈴蟲可以設定多個提取項，這裡為了演示只設定了乙個提取項 .interval(8);= crawlerbuilder.create() .starturl("") //風鈴蟲的起始鏈結 // 風鈴蟲會將每次請求的網頁的內容中的url先全部提取出來，然後將完全匹配此規則的鏈結放入鏈結池，作為下次請求的種子鏈結。 // 如果不設定則表示提取鏈結中所有包含網域名稱關鍵字（例如此例中的ifeng）的鏈結放入鏈結池 .addlinkrule("http[s]?://news\\.ifeng\\.com/.*")//鏈結提取規則，多可新增多個鏈結提取規則， //可以設定多個內容頁的規則，多個內容頁規則之間用半形逗號隔開 //只要內容頁url中完全匹配此規則就進行內容提取，如果不設定標識提取網域名稱下所有的鏈結 .extracturl("https://news\\.ifeng\\.com/c/[a-za-z0-9]+") //內容頁的規則， .addextractitem(contentitem) //增加乙個提取項，風鈴蟲可以設定多個提取項，這裡為了演示只設定了乙個提取項 .interval(8);//每次進行爬取時的平均間隔時間，單位為秒，如果不設定則使用預設時間10秒，此值時為了防止抓取頻率太高被伺服器** //構建乙個簡單的風鈴蟲例項

crawler crawler = builder.creatcrawler();

無論是哪種構建方法，生成乙個風鈴蟲的最基礎的提供資訊必須包含以下兩種：

在風鈴蟲啟動成功後，每個風鈴蟲都會具有乙個唯一的隨機的名字，用於分辨風鈴蟲，獲取方法如下

crawler.getname()

在風鈴蟲例項啟動後，禁止進行修改屬性的操作，否則可能會導致風鈴蟲執行異常

官方文件

原始碼

風鈴蟲入門教程快速建立風鈴蟲

matplotlib快速入門教程

Linux快速入門教程

BMFont 快速入門教程

風鈴蟲入門教程 快速建立風鈴蟲

matplotlib快速入門教程

Linux快速入門教程

BMFont 快速入門教程

相關推薦

風鈴蟲入門教程快速建立風鈴蟲