抓取和分析乙個檔案是非常簡單的事。這個教程將通過乙個例子帶領你一步一步地去實現它。讓我們開始吧!
首先,我首必須決定我們將抓取的url位址。可以通過在指令碼中設定或通過$query_string傳遞。為了簡單起見,讓我們將變數直接設在指令碼中。
<?php $url = '';
?>
第二步,我們抓取指定檔案,並且通過file()函式將它存在乙個陣列裡。
<?php $url = '';
$lines_array = file($url);
?>
好了,現在在陣列裡已經有了檔案了。但是,我們想分析的文字可能不全在一行裡面。為了解決這個檔案,我們可以簡單地將陣列$lines_array轉化成乙個字串。我們可以使用implode(x,y)函式來實現它。如果在後面你想用explode(將字串變數陣列),將x設成"|"或"!"或其它類似的分隔符可能會更好。但是出於我們的目的,最好將x設成空格。y是另乙個必要的引數,因為它是你想用implode()處理的陣列。
<?php $url = '';
$lines_array = file($url);
$lines_string = implode('', $lines_array);
?>
現在,抓取工作就做完了,下面該進行分析了。出於這個例子的目的,我們想得到在
到之間的所有東西。為了分析出字串,我們還需要叫做正規表示式的東西。
<?php $url = '';
$lines_array = file($url);
$lines_string = implode('', $lines_array);
eregi("(.*)", $lines_string, $head);
?>
讓我們看一下**。正如你所見,eregi()函式按下面的格式執行:
eregi("(.*)", $lines_string, $head);
"(.*)"表示所有東西,可以解釋為,"分析在
和間的所以東西"。$lines_string是我們正在分析的字串,$head是分析後的結果存放的陣列。
最後,我們可以輸資料。因為僅在
和間存在乙個例項,我們可以安全的假設陣列中僅存在著乙個元素,而且就是我們想要的。讓我們把它列印出來吧。
這就是全部的**了。
<?php //獲取所有內容url儲存到檔案
function get_index ( $s**e_file , $prefix = "index_" )
fclose ( $fp );
}//獲取目標多**物件
function get_object ( $url_file , $s**e_file , $split = "|--:**:--|" )
fclose ( $fp );
}//遍歷目錄獲取檔案內容
function get_dir ( $s**e_file , $dir )
} fclose ( $fp );
}//獲取指定url內容
function get_url ( $url )
fclose ( $fp );
if (empty( $content ))
return $content ;
}//使用socket獲取指定網頁
function get_content_by_socket ( $url , $host )
fclose ( $fp );
return $contents ;
}//獲取指定內容裡的url
function get_content_url ( $host_url , $file_contents )}}
} return $result ;
}//獲取指定內容中的多**檔案
function get_content_object ( $str , $split = "|--:**:--|" )
return $result ;
}?>
PHP抓取網頁和分析
thursday,29.june 2006,06 41 03 php程式設計 譯者 limodou 抓取和分析乙個檔案是非常簡單的事。這個教程將通過乙個例子帶領你一步一步地去實現它。讓我們開 始吧!首先,我首必須決定我們將抓取的url位址。可以通過在指令碼中設定或通過 query string傳遞。...
網頁資訊抓取,分析方法記錄
一切為了做個好爸爸。其實爸爸這個詞,真的很汗顏,在我們還沒有學會如何孝敬父母的時候,卻已經馬上要為人父母了。驚喜總是來的很快,不自覺中,自己已經成長了。雖然不一定是個稱職的爸爸,但是我想大家在這個時候也是想做的更好。做網路資料抓取,其實辦法並非唯一的,不過為了直觀,我選用了比較麻煩的方式。那就是前台...
用php抓取網頁內容方法總結
用php抓取頁面的內容在實際的開發當中是非常有用的,如作乙個簡單的內容採集器,提取網頁中的部分內容等等,抓取到的內容在通過正規表示式做一下過濾就得到了你想要的內容,至於如何用正規表示式過濾,在這裡就不做介紹了,有興趣的同學可以參考本站的 正規表示式 板塊 以下就是幾種常用的用php抓取網頁中的內容的...