在上篇基於php採集資料入庫程式(一)
中提到採集新聞資訊頁的列表資料,接下來講講關於採集新聞具體內容
這是上篇部落格的最終資料表截圖:
接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行
新建乙個content表
不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id=9,id=11,當採集到id=10的時候,url是空白的,這樣可能會導致採集到了空欄位。
這裡用到的乙個技巧是資料庫的查詢語句,在我們採集完第一條資料的時候,判斷資料庫裡是否還有大於此id的id編號,若有,讀取一條,查詢資訊重複上面的工作。
具體**如下:
<?phpinclude_once("conn.php");
$id=(int)$_get['id'];
$sql="select * from list where id=$id";
$result=mysql_query($sql
);
$row=mysql_fetch_array($result);//
取得對應的url位址
$content=file_get_contents($row['url']);
$pattern="/(.*)/ius";
preg_match($pattern, $content,$info);//
獲取內容存放info
echo
$title=$row[1]."
";
echo
$content=$info[0]."";
//插入資料庫
$add="insert into content(title,content) value('$title','$content')";
mysql_query($add
);
$sql2="select * from list where id>$id order by id asc limit 1";
$result2=mysql_query($sql2
);
$row2=mysql_fetch_array($result2);//
取得對應的url位址
這樣子我們所要的新聞內容就採集入庫了,接下來只需要對資料的一些樣式進行整理就行了。
基於PHP採集資料入庫程式(一)
前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。說到採集,無非就是遠端獲取資訊 提取所需內容 分類儲存 讀取 展示 也算是簡單 小偷程式 的加強版吧 下面是對應核心 別拿去做壞事哦 可先利用file get contents和簡單正則獲取基本頁面資訊 echo...
基於PHP的簡單採集資料入庫程式 續篇
在上篇文章中,我們已經採集新聞資訊頁的列表資料,接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id 9,id 11,當採集到id 10的時候,ur...
採集資料專案後端總結(二) 字典管理
1.功能描述 字典管理包括字典分類管理和字典項管理,顧名思義,字典的主要功能就是對資料的型別進行管理和節約記憶體 作用 減少冗餘應該用節約記憶體更合適,就是說如果存型別可能就是一串中文,但是用了字典表之後 可以用幾個數字代替 節約資料記憶體 主要的意義還是對資料的型別,資料狀態的管理 我們有時候為了...