在上篇文章中,我們已經採集新聞資訊頁的列表資料,接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行
新建乙個content表
不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id=9,id=11,當採集到id=10的時候,url是空白的,這樣可能會導致採集到了空欄位。
這裡用到的乙個技巧是資料庫的查詢語句,在我們採集完第一條資料的時候,判斷資料庫裡是否還有大於此id的id編號,若有,讀取一條,查詢資訊重複上面的工作。
具體**如下:
<?ph
include_once("conn.php");
$id=(int)$_get['id'];
$sql="select * from list where id=$id";
$result=mwww.cppcns.comysql_querpojgaly($sql);
$row=mysql_fetch_array($result);//取得對應的url位址
$content=file_get_contents($row['url']);
$pattern="/
(.*)/ius";
preg_match($pattern, $content,$info);//獲取內容存放info
echo $title=$row[1]."
pojgalt;";
echo $content=$info[0]."";
//插入資料庫
$add="insert into content(title,content) value('$title','$content')";
mysql_query($add);
$sql2="select * from list where id>$id order by id asc limit 1";
$result2=mysql_query($sql2);
$row2=mysql_fetch_array($result2);//取得對應的url位址
if($row2['id'])
?>
這樣子我們所要的新聞內容就採集入庫了,接下來只需要對資料的一些樣式進行整理就行了。
本文標題: 基於php的簡單採集資料入庫程式【續篇】
本文位址: /wangluo/php/111427.html
基於PHP採集資料入庫程式(一)
前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。說到採集,無非就是遠端獲取資訊 提取所需內容 分類儲存 讀取 展示 也算是簡單 小偷程式 的加強版吧 下面是對應核心 別拿去做壞事哦 可先利用file get contents和簡單正則獲取基本頁面資訊 echo...
基於PHP採集資料入庫程式(二)
在上篇基於php採集資料入庫程式 一 中提到採集新聞資訊頁的列表資料,接下來講講關於採集新聞具體內容 這是上篇部落格的最終資料表截圖 接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,...
PV,V,UV的概念,採集資料
guid ip 隨機數 firstvisit.gif 表示新使用者 pagevi 0.gif 超出規定時間的使用者 pagevi 1.gif 1 天以後的時間段 pagevi 2.gif 30 分鐘 1 天時間段 pagevi 3.gif 0 30 分鐘時間 綜合瀏覽量 pv 統計所有的資料 訪問次...