前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。
說到採集,無非就是遠端獲取資訊->提取所需內容->分類儲存->讀取->展示
也算是簡單"小偷程式"的加強版吧
下面是對應核心**(別拿去做壞事哦^_^)
可先利用file_get_contents和簡單正則獲取基本頁面資訊
echo "正在採集url資料列表$id...請稍後...";
echo "";
}else
?>
conn.php是資料庫連線檔案
list.php是本頁面
由於要採集的資料是分頁顯示的,且頁面位址是規律遞增,所以我用了js跳轉**,利用id傳值控制採集的頁數,也避免了for迴圈數目過大。
輕輕鬆鬆資料入庫,下篇部落格寫關於具體url採集資訊的過程。
基於PHP採集資料入庫程式(二)
在上篇基於php採集資料入庫程式 一 中提到採集新聞資訊頁的列表資料,接下來講講關於採集新聞具體內容 這是上篇部落格的最終資料表截圖 接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,...
基於PHP的簡單採集資料入庫程式 續篇
在上篇文章中,我們已經採集新聞資訊頁的列表資料,接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id 9,id 11,當採集到id 10的時候,ur...
Flume的使用一 從指定埠採集資料傳送到工作台
1.寫配置檔案 1 配置source 2 配置channel 3 配置sink 4 串聯三個元件 a1 agent的名稱 r1 source的名稱 k1 sink的名稱 c1 channel的名稱 agent的定義 a1.sources r1 a1.sinks k1 a1.channels c1 描...