# -*nofcmboq- coding:utf-8 -*-
#python 2.7
##標籤操作
from bs4 import beautifulsoup
import urllib.request
import re
#如果是**,可以用這個辦法來讀取網頁
#html_doc = ""
#req = urllib.request.request(html_doc)
#w程式設計客棧ebpage = urllib.request.urlopen(req)
#html = webpage.read()
html="""
the dormouse's story
the dormouse's story
nofcmboqss="story">once upon a time there were three little sisters; and their names were
,lacie and
tillie;
lacie
and they lived at程式設計客棧 the bottom of a well.
..."""
soup = beautifulsoup(html, 'html.parser') #文件物件
#查詢a標籤,只會查詢出乙個a標籤
#print(soup.a)#
for k in soup.find_all('a'):
print(k)
print(k['class'])#查a標籤的class屬性
print(k['id'])#查a標籤的id值
print(k['href'])#查a標籤的href值
print(k.string)#查a標籤的string
如果,標籤中含有其他標籤,比如..,此nofcmboq時要提取中的資料,需要用k.get_text()
soup = beautifulsoup(html, 'html.parser') #文件物件
#查詢a標籤,只會查詢出乙個a標籤
for k in soup.find_all('a'):
print(k)
print(k['class'])#查a標籤的class屬性
print(k['id'])#查a標籤的id值
print(k['href'])#查a標籤的href值
print(k.string)#查a標籤的string
如果,標籤中含有其他標籤,比如..,此時要提取中的資料,需要用k.get_text()
通常我們使用下面這種模式也是能夠處理的,下面的方法使用了get()。
html = urlopen(url)
soup = beautifulsoup(html, 'html.parser')
t1 = soup.find_all('a')
print t1
href_list =
for t2 in t1:
t3 = t2.get('href')
href_list.append(t3)
補充:python爬蟲獲取任意頁面的標籤和屬性(包括獲取a標籤的href屬性)
# coding=utf-8
from bs4 import beautifulsoup
import requests
# 定義乙個獲取url頁面下label標籤的attr屬性的函式
def gethtml(url, label, attr):
response = requests.get(url)
response.encoding = 'utf-8'
html = response.text
soup = beautifulsoup(html, 'html.parser');
for target in soup.find_all(label):
try:
value = target.get(attr)
except:
value = ''
if value:
print(value)
url = ''
label = 'a'
attr = 'href'
gethtml(url, label, attr)
本文標題: python 如何獲取頁面所有a標籤下href的值
本文位址:
python獲取頁面所有a標籤下href的值
coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是 可以用這個辦法來讀取網頁 html doc req urllib.request.request html d...
獲得頁面獲取所有控制項
本例以獲取web窗體上所有的textbox為例加以說明 foreach control c in page.controls 採用上述方法不能獲得所有控制項,它只能獲得頁面上一級控制項,如果某個控制項還有子控制項,將不能獲得。可以採用下述方法 1 static arraylist al null 存...
Python獲取當前頁面內的所有鏈結的五種方法
本文講述了 python 獲取當前頁面內的所有鏈結的五種方法,分享給大家僅供參考,具體如下 利用 requests html from requests html import htmlsession session htmlsession url r session.get url print r...