PHP抓取及分析網頁的方法詳解

2022-10-03 13:06:11 字數 2178 閱讀 1152

抓取和分析乙個檔案是非常簡單的事。這個教程將通過乙個例子帶領你一步一步地去實現它。讓我們開始吧!

首先,我首必須決定我們將抓取的url位址。可以通過在指令碼中設定或通過$query_string傳遞。為了簡單起見,讓我們將變數直接設在指令碼中。

<?php $url = '';

?>

第二步,我們抓取指定檔案,並且通過file()函式將它存在乙個陣列裡。

<?php $url = '';

$lines_array = file($url);

?>

好了,現在在陣列裡已經有了檔案了。但是,我們想分析的文字可能不全在一行裡面。為了解決這個檔案,我們可以簡單地將陣列$lines_array轉化成乙個字串。我們可以使用implode(x,y)函式來實現它。如果在後面你想用explode(將字串變數陣列),將x設成"|"或"!"或其它類似的分隔符可能會更好。但是出於我們的目的,最好將x設成空格。y是另乙個必要的引數,因為它是你想用implode()處理的陣列。

<?php $url = '';

$lines_array = file($url);

$lines_string = implode('', $lines_array);

?>

現在,抓取工作就做完了,下面該進行分析了。出於這個例子的目的,我們想得到在

到之間的所有東西。為了分析出字串,我們還需要叫做正規表示式的東西。

<?php $url = '';

$lines_array = file($url);

$lines_string = implode('', $lines_array);

eregi("(.*)", $lines_string, $head);

?>

讓我們看一下**。正如你所見,eregi()函式按下面的格式執行:

eregi("(.*)", $lines_string, $head);

"(.*)"表示所有東西,可以解釋為,"分析在

和間的所以東西"。$lines_string是我們正在分析的字串,$head是分析後的結果存放的陣列。

最後,我們可以輸資料。因為僅在

和間存在乙個例項,我們可以安全的假設陣列中僅存在著乙個元素,而且就是我們想要的。讓我們把它列印出來吧。

這就是全部的**了。

<?php //獲取所有內容url儲存到檔案

function get_index ( $s**e_file , $prefix = "index_" )

fclose ( $fp );

}//獲取目標多**物件

function get_object ( $url_file , $s**e_file , $split = "|--:**:--|" )

fclose ( $fp );

}//遍歷目錄獲取檔案內容

function get_dir ( $s**e_file , $dir )

} fclose ( $fp );

}//獲取指定url內容

function get_url ( $url )

fclose ( $fp );

if (empty( $content ))

return $content ;

}//使用socket獲取指定網頁

function get_content_by_socket ( $url , $host )

fclose ( $fp );

return $contents ;

}//獲取指定內容裡的url

function get_content_url ( $host_url , $file_contents )}}

} return $result ;

}//獲取指定內容中的多**檔案

function get_content_object ( $str , $split = "|--:**:--|" )

return $result ;

}?>

PHP抓取網頁和分析

thursday,29.june 2006,06 41 03 php程式設計 譯者 limodou 抓取和分析乙個檔案是非常簡單的事。這個教程將通過乙個例子帶領你一步一步地去實現它。讓我們開 始吧!首先,我首必須決定我們將抓取的url位址。可以通過在指令碼中設定或通過 query string傳遞。...

網頁資訊抓取,分析方法記錄

一切為了做個好爸爸。其實爸爸這個詞,真的很汗顏,在我們還沒有學會如何孝敬父母的時候,卻已經馬上要為人父母了。驚喜總是來的很快,不自覺中,自己已經成長了。雖然不一定是個稱職的爸爸,但是我想大家在這個時候也是想做的更好。做網路資料抓取,其實辦法並非唯一的,不過為了直觀,我選用了比較麻煩的方式。那就是前台...

用php抓取網頁內容方法總結

用php抓取頁面的內容在實際的開發當中是非常有用的,如作乙個簡單的內容採集器,提取網頁中的部分內容等等,抓取到的內容在通過正規表示式做一下過濾就得到了你想要的內容,至於如何用正規表示式過濾,在這裡就不做介紹了,有興趣的同學可以參考本站的 正規表示式 板塊 以下就是幾種常用的用php抓取網頁中的內容的...