在瀏覽器中右鍵檢查元素
那麼經過分析確定標籤可以得到下面的**:
elements h = doc.select("h1[itemprop]");//標題
system.out
.println(h.text());
elements time = doc.select("div.time");//時間
system.out
.println(time.text());
/* element source = doc.select("span[itemprop=name]").first();//**
system.out.println(source.text());
*///maybe 更好
elements source = doc.select("div[class=source]");
system.out
.println(source.text());
elements body = doc.select("div[itemprop=articlebody]");
system.out
.println(body.text());
執行一下得到結果:
每個**的結構不一樣,建議多試乙個網頁,以確保,抓取的標籤沒錯。
爬蟲學習 爬蟲之新浪新聞
學習資料參考 python網路爬蟲實戰 源程式如下 import requests import json from bs4 import beautifulsoup import pandas results zturl res requests.get zturl jd json.loads r...
使用Scrapy對新聞進行爬蟲(二)
scrapy框架下的item用於定義抓取的資料內容。實現從非結構化資料 網頁 中提取結構化資料時,結構化資料所用的資料結構即為該item scrapy.item 宣告乙個item類,scrapy匯入該模組並使用item例項來儲存結構化資料。所有資料的型別field實際是乙個dict的別名而已。開發者...
python之爬蟲(二)爬蟲的原理
在上文中我們說了 爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以...