抓取某乙個網頁中的內容,需要對dom樹進行解析,找到指定節點後,再抓取我們需要的內容,過程有點繁瑣。lz總結了幾種常用的、易於實現的網頁抓取方式,如果熟悉jquery選擇器,這幾種框架會相當簡單。
一、ganon
文件:
測試:抓取我的**首頁所有class屬性值是focus的div元素,並且輸出class值
include
'ganon.php';
$html = file_get_dom('');
foreach($html('div[class="focus"]') as $element)
?>
結果:
二、phpquery
文件:include
'phpquery/phpquery.php';
phpquery::newdocumentfile('');
$artlist = pq("article");
foreach($artlist as $title)
?>
結果:
三、******-html-dom
文件:
include
'******_html_dom.php';
//使用url和file都可以建立dom
$html = file_get_html('');
//找到所有
// foreach($html->find('img') as $element)
// echo $element->src . '
';//找到所有鏈結
foreach($html->find('a') as $element)
echo $element->href . '
'; ?>
結果:(截圖是一部分)
四、snoopy
文件:include("snoopy.class.php");
$url = "";
$snoopy = new snoopy;
$snoopy->fetch($url); //獲取所有內容
echo $snoopy->results; //顯示結果
// echo $snoopy->fetchtext ;//獲取文字內容(去掉html**)
// echo $snoopy->fetchlinks($url) ;//獲取鏈結
// $snoopy->fetchform ;//獲取表單
?>
結果:
五、手動編寫爬蟲
ps:資源分享
常見的開源爬蟲專案請戳:
網頁抓取 PHP實現網頁爬蟲方式小結
抓取某乙個網頁中的內容,需要對dom樹進行解析,找到指定節點後,再抓取我們需要的內容,過程有點繁瑣。lz總結了幾種常用的 易於實現的網頁抓取方式,如果熟悉jquery選擇器,這幾種框架會相當簡單。一 ganon 文件 測試 抓取我的 首頁所有class屬性值是focus的div元素,並且輸出clas...
php抓取網頁的若干實現方式
php抓取網頁的若干實現方式 最近在做乙個笑話平台,包含web版 安裝版,由於沒有笑話資源,所以就用php寫了乙個後台程式,每天定時從各大笑話 抓取資料,下面整理了一些php抓取網頁內容的基本方式。一 php抓取頁面的主要方法 1.file 函式 2.file get contents 函式 3.f...
php抓取網頁
用php抓取頁面的內容在實際的開發當中是非常有用的,如作乙個簡單的內容採集器,提取網頁中的部分內容等等,抓取到的內容在通過正規表示式做一下過濾就得到了你想要的內容,以下就是幾種常用的用php抓取網頁中的內容的方法。1.file get contents php url contents file g...