python 爬蟲現階段用到的包是requests還有beautifulsoup4。
requests主要內容是模擬html的get方式讀取網頁的資訊
beautifulsoup4則是提取網頁中tag標籤裡面的某些特定資訊
範例:import requests #import requests包
res=requests.get('') #用get的方式抓取上的內容
res.encoding='utf-8 ' #指定用utf-8來解碼
print(res.text) #print內容
from bs4 import beautifulsoup #import beautifulsoup4套件
html_sample='\\\
\this is link1\
this is link2\\'
#sample html網頁source code
soup=beautifulsoup(html_sample, 'html.parser')
print(soup.text)
爬取sina新聞網頁內容範例:
import requests
from bs4 import beautifulsoup
res=requests.get('')
res.encoding='utf-8'
soup=beautifulsoup(res.text,'html.parser')
for news in soup.select('.news-item'):
if len(news.select('h2'))>0:
h2=news.select('h2')[0].text
a=news.select('a')[0]['href']
time=news.select('.time')[0].text
print(time,h2,a)
strip()函式可以去除一些不想要的字段或者空格
join()函式可以合併一些東西
from datetime import datetime
dt=datetime.strptime(timesource,'%y年%m月%d日%h:%m')
從datetime模組中import datetime元件
可以把str的字串轉化成時間,可以自動定義格式
如果想要的東西是以json格式陷進去文章裡面,需要用到json模組
import requests
import json
comments=requests.get('
gn&newsid=comos-fyamkqa6031838&group=&compress=0&ie=utf-8&oe=utf-8&\
page=1&page_size=20&jsvar=loader_1487053268732_20451525')
jd=json.loads(comments.text.strip('var=loader_1487053268732_20451525' 'var data='))
jd['result']['count']['total']
找出一則新聞的資訊,包括標題,時間,正文,編輯等等,先定義乙個function
getnewsdetail('')
得到多頁新聞資訊:
筆記待整理
關於靜態屬性和方法的繼承問題 對於非靜態屬性,子類會繼承下來並且可以對其操作 但是一旦子類有了同名屬性時,父類的屬性會被隱藏,這時操作的就是子類的那個和父類同名的屬性。所以在被隱藏時要看使用時要看是父類的引用指向物件還是子類的引用指向物件。是誰的引用就呼叫誰的屬性。對於靜態屬性,子類繼承並使用,但是...
部分筆記記錄 待整理
cookie 協議 網域名稱 埠 cookies同源策略 網域名稱相同就ok 一般同源策略要區分 協議 網域名稱 埠 corsfilter遠端同源策略處理跨域 h5 localstorage 本地儲存 5m 解決cookies儲存不足問題 js json.stringify jsjson轉換問題 l...
的問題 (待整理)
資料 瀏覽次數 3426次 懸賞分 5 提問者 dangdangxww 為什麼這個s形參前面用了 和 呢?是怎麼個用法,含義如何呀?小弟在這先謝了,那位高手幫一下?問題補充 這個寫法是我從 資料結構上機試驗 的書上抄下來的,且可以執行,但就是不知道是什麼個用法!最佳答案 這樣的表示確實是有的,我來詳...