最近想做研究網際網路來獲取資料,只是有一點python,讓我們來看乙個比較簡單的實現。
例如,我想抓住歐巴馬的每週演講手動提取,就須要乙個個點進去,再複製儲存,很麻煩。
那有沒有一步到位的方法呢。用python這樣的強大的語言就能高速實現。
首先我們看看這網頁的源**
能夠發現。我們要的資訊就在這樣
更詳細點說,就是我們要遍歷每乙個類似這種**,而這**須要從上面的網頁中提取。
好。開始寫**
首先開啟這個資料夾頁。儲存在content
import sys,urllib
url=""
wp = urllib.urlopen(url)
print "start download..."
content = wp.read()
以下要提取出每一篇演講的內容
詳細思路是搜尋「center_box」之後,每乙個「href=」和「target」之間的內容。
為什麼是這兩個之間,請看網頁源**。
print content.count("center_box")
index = content.find("center_box")
content=content[content.find("center_box")+1:]
content=content[content.find("href=")+7:content.find("target")-2]
filename = content
url =""+content
print content
print url
wp = urllib.urlopen(url)
print "start download..."
content = wp.read()
有了文章內容的url後。相同的方法篩選內容。
#print content
print content.count("
filename = filename.replace('/',"-",filename.count("/"))
fp = open(filename,"w+")
fp.write(content)
fp.close()
print content
ok,大功告成!儲存成.pyw檔案,以後僅僅需雙擊就直然後儲存在obama每週演示文稿~ python 網頁內容抓取
使用模組 import urllib2 import urllib 普通抓取例項 usr bin python coding utf 8 import urllib2 url 建立request物件 request urllib2.request url 傳送請求,獲取結果 try response...
Python 簡單網路抓取
我們先簡單的說一下如何抓取乙個網頁的源 其實我們只需要呼叫python中的requests庫中的get方法就可以了。然後解析的話我們可以通過beautifulsoup庫來進行解析。requests比較適合做中小型的網路爬蟲開發,如果是要進行大型的網路爬蟲開發那一般使用的就是scrapy框架了。req...
python執行緒抓取頁面簡單內容
用到的基本就是之前提到的執行緒小框架及邏輯 encoding utf 8 import requests from lxml import etree import threading import os class cnbeta object thread 獲取 首頁 def get url se...