為什麼使用「小偷程式」?遠端抓取文章資訊或商品資訊是很多企業要求程式設計師實現的功能,也就是俗說的小偷程式。其最主要的優點是:解決了公司網編繁重的工作,大大提高了效率。只需要一執行就能快速的抓取別人**的資訊。「小偷程式」在**執行?
「小偷程式」 應該在 windows 下的 dos(參考文章: 或 linux 下通過 php 命令執行為最佳,因為,網頁執行會超時。
比如圖(windows 下 dos 為例):
「小偷程式」的實現
1、資訊列表有 500 頁(2012-01-03);
2、每頁的 url 鏈結都有規律,比如:第1頁為第2頁為第500頁為
這樣,我們可以通過這樣的思路來實現頁面內容的抓取:
1、先獲取文章列表頁內容;
「華強電子網」資訊抓取
首先,先建資料表結構,如下所示:
抓取程式:create table `article`.`article` (
`id` mediumint( 8 ) unsigned not null auto_increment primary key ,
`title` varchar( 255 ) character set utf8 collate utf8_general_ci not null ,
`date` varchar( 50 ) not null ,
`author` varchar( 100 ) character set utf8 collate utf8_general_ci not null ,
`source` varchar( 100 ) character set utf8 collate utf8_general_ci not null ,
`content` text not null
) engine = myisam character set utf8 collate utf8_general_ci;
<?php
/*** author lee.
* last modify $date: 2012-1-3 15:39:35 $
*/header('content-type:text/html;charset=utf-8');
$mysqli = new mysqli('localhost', 'root', '1715544', 'article'); # 資料庫連線,請手動修改您自己的資料庫資訊
$mysqli->set_charset('utf8'); # 設定資料庫編碼
function data($url) ','','','','')";
$row = $mysqli->query($sql); # 新增到資料庫
if ($row) else }}
/** * @param string $v
* @return string
*/function stripcontenttag($v)
/** * striptitletag($title) 對文章標題進行過濾
* @param string $v
* @return string
*/function stripauthortag($v)
/** * mysqlstring($str) 過濾資料
* @param string $str
* @return string
*/function mysqlstring($str)
/** * init($min, $max) 入口程式方法,從 $min 頁開始取,到 $max 頁結束
* @param int $min 從 1 開始
* @param int $max
* @return string 返回 url 位址
*/function init($min=1, $max) .html"); }}
init(1, 500); // 程式入口,從第一頁開始抓,抓取500頁
?>
執行介面:
資料庫:
php簡單小偷程式
學了簡單的正規表示式 a za z0 9 a za z0 9 a za z0 9 用於描述字元排列和匹配模式的一種語法規則。它主要用於字串的模式分割 匹配 查詢及替換操作。正規表示式函式 ereg eregi ereg 正規表示式,內容,返回的陣列 若省略引數返回的陣列,找到則返回值為 true 否...
PHP簡單的小偷程式
這是用php實現乙個簡單的小偷的程式 url 這是所要擷取的 fcontent file get contents url 開啟 的內容,引數是乙個要訪問的 eregi fcontent,rg 正規表示式,進行擷取,內容返回到陣列中 這裡可以根據自己的需要來擷取 的內容.是選取了網頁的所有內容作為擷...
PHP小偷程式原理 例項及改進
優點 通過php小偷,我們可以借用別人 上的資訊而不用自己辛苦地去採集。缺點 需要把整頁的html 讀取到本地,然後通過匹配獲取到想要的資訊再進行顯示,這樣大大影響網頁的載入速度。改進 通過ajax非同步讀取html 後台進行匹配獲取到想要的資訊,再顯示到前台頁面。預備知識 php ajax 正規表...