<?php
/*** 採集soho網頁新聞
*/// header頭
header("content-type:text/html;charset=utf8");
// **位址
$url="";
// 獲取**內容
$str=file_get_contents($url);
// 轉碼
$str=iconv('gbk','utf-8',$str);
// pdo連線資料庫
$pdo=new pdo("mysql:host=localhost;dbname=caiji" ,"root","root");
$pdo->exec("set names utf8");
// 獲取網頁內容`
$reg='#.*
#isu';
preg_match($reg, $str,$arr);
// 分步正則獲取、標題、詳情
$reg2='#
#isu';
$reg3='#(.*)
#isu';
$reg4='#(.*).*
#isu';
// var_dump($arr);
preg_match_all($reg2,$arr[0],$image);
preg_match_all($reg3,$arr[0],$title);
preg_match_all($reg4,$arr[0],$content);
// 新增到同乙個陣列
$data=array();
// 將儲存到本地
foreach ($image[1] as $key => $value)
// foreach ($image[1] as $key => $value)
foreach ($title[1] as $key => $value)
foreach ($content[1] as $key => $value)
// 迴圈入庫
foreach ($data as $key => $value)
var_dump($data);
?>
網頁資訊採集實現
最近公司需要開發乙個簡歷匯入功能,類似部落格搬家或者郵箱搬家,之前抓取資訊是利用火車採集器,但是簡歷匯入功能需要使用者登陸以後才能獲取簡歷資料,無奈只好自己開發了。首先是遇到的問題是 如何實現模擬登陸?我們知道一般的 都是通過cookies來維護狀態的,我抓的 也是支援利用cookies來驗證使用者...
網頁標題資訊採集
之前做了乙個通過ip來掃瞄 的,以為能掃到所有的 因為ip是能全部遍歷的,但是忘記了很多 是禁止反向解析的。所以更改了寫法,仿照類似爬蟲的方法,抓取乙個網頁的內容,然後遍歷其中的 然後根據其中的 再去遍歷內容,如此做了個簡單的網頁標題資訊採集工具.更新,1.使用多執行緒處理 2.使用快取技術減少db...
基於PHP採集資料入庫程式(一)
前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。說到採集,無非就是遠端獲取資訊 提取所需內容 分類儲存 讀取 展示 也算是簡單 小偷程式 的加強版吧 下面是對應核心 別拿去做壞事哦 可先利用file get contents和簡單正則獲取基本頁面資訊 echo...