《我用爬蟲一天時間「偷了」知乎一百萬使用者,只為證明php是世界上最好的語言 》所使用的程式框架
編寫php網路爬蟲, 需要具備以下技能:
注意:本框架只能在命令列下執行,命令列、命令列、命令列,重要的事情說三遍 ^_^
爬蟲採用php編寫, 下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:
$configs =array(爬蟲的整體框架就是這樣, 首先定義了乙個$configs陣列, 裡面設定了待爬**的一些資訊, 然後通過呼叫$spider = new phpspider($configs);和$spider->start();來配置並啟動爬蟲.'name
' => '
糗事百科',
'domains
' =>array(
'qiushibaike.com',
'www.qiushibaike.com'),
'scan_urls
' =>array(
''),
'content_url_regexes
' =>array(
"article/\d+"),
'list_url_regexes
' =>array(
"8hr/page/\d+\?s=\d+"),
'fields
' =>array(
array(
//抽取內容頁的文章內容
'name
' => "
article_content",
'selector
' => "
//*[@id='single-next-link']",
'required
' => true
), array(
//抽取內容頁的文章作者
'name
' => "
article_author",
'selector
' => "
//div[contains(@class,'author')]//h2",
'required
' => true
), ),
);$spider = new
phpspider($configs);
$spider->start();
執行介面如下:
$configs物件如何定義, 後面會作詳細介紹.^_^
官方開發手冊:
PHP蜘蛛爬蟲開發文件
我用爬蟲一天時間 偷了 知乎一百萬使用者,只為證明php是世界上最好的語言 所使用的程式框架 編寫php網路爬蟲,需要具備以下技能 注意 本框架只能在命令列下執行,命令列 命令列 命令列,重要的事情說三遍 爬蟲採用php編寫,下面以糗事百科為例,來看一下我們的爬蟲長什麼樣子 configs arra...
mmx開發文件
i mmx簡介 ii mmx基本指令集 具體細節請參閱 intel 體系結構mmx技術程式設計師參考手冊 第五章 2.1 拷貝指令 movq 64位資料拷貝,如果記憶體8位對齊的話,是乙個64位寫,否則2個32位寫。movd 32位資料拷貝,注意 如果從記憶體向mmx暫存器拷貝,mmx高32位清零!...
zencart開發文件
在zencart開發中,做乙個新的功能模組時,首先要明確這個功能的流程和與原來 的關聯。然後,需要為這個功能模組取乙個名稱標識,盡量不要與原有的模組名稱不相同。zencart模組結構 1.資料庫資料表部分 2.後台管理部分 3.前台功能顯示部分 資料庫部分 zencart使用mysql數庫據,在設計...