下面列出在抓取網頁中常用的正則規則,其中$content代表網頁內容,$tmparray為抓取的結果儲存陣列。
抓取html中css裡背景位址
preg_match_all('/(background|background-image):url/([/"/']?([^/)]+)[/"/']?/)/i', $content, $tmparray);
抓取html中標籤中的位址
preg_match_all('/]+src=[/"/']([^/"/'/s]+)[/"/'][^>]+>/i', $content, $tmparray);
preg_match_all('/background=[/"/']?([^/"/'/s>]+)[/"/']?/i', $content, $tmparray);
抓取html中的flash位址
preg_match_all('/]+src=[/"/'](([^/"/'/s]+)/.swf)[/"/'][^>]+>/i', $content, $tmparray);
抓取html中的iframe的鏈結位址
preg_match_all('/]+src=[/"/']?([/w/-///.]+)[/"/']?[^>]+>/i', $content, $tmparray);
抓取html中的超連結位址
preg_match_all('/]+href=[/"/']([^>/"/']+)[/"/']?[^>]+>([^<]+)/i', $content, $iframeurlarray);
用於抓取網頁內容的常用正則
下面列出在抓取網頁中常用的正則規則,其中 content代表網頁內容,tmparray為抓取的結果儲存陣列。抓取html中css裡背景位址 preg match all background background image url i content,tmparray preg match all...
PHP 網頁內容抓取 抓取網頁內容的兩種常用方法
說到網頁內容的抓取,最常用的兩種方式 1.利用file get contents 函式,簡簡單單 2.curl抓取工具。curl是乙個非常強大的開源庫,支援很多協議,包括http ftp telnet等,我們使用它來傳送http請求。它給我 們帶來的好處是可以通過靈活的選項設定不同的http協議引數...
網頁內容抓取
之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...