Python爬蟲學習第三章 3 1 bs4的概述

2021-10-25 01:36:56 字數 608 閱讀 3318

這一節主要是簡要介紹bs4

1、回顧資料解析的原理:

標籤定位

提取標籤或標籤屬性中儲存的資料值

2、使用bs4進行資料解析的原理:

例項化乙個beautifulsoup物件,並且將頁面原始碼載入到該物件中。引數一是乙個檔案描述符,是乙個被賦值成功的fp。引數二為lxml,lxml是一種解析器

通過呼叫beautifusoup物件中相關屬性或者方法進行標籤定位和資料提取

3、如何例項化beautifulsoup物件:

先導包:from bs4 import beautifulsoup

物件的例項化(兩種形式):

4、beautifulsoup物件中提供的用於資料解析的方法和屬性(tagname代表標籤名):

soup.findall():返回的是乙個列表,包括符合標準的所有標籤

soup.select()::

獲取標籤之間的文字資料:soup.a.text/string/get_text():text屬性和get_text()方法可以獲取某乙個標籤中所有的文字內容,直系非直系都可以;string屬性只能獲取該標籤下面直系的文字內容。

獲取標籤中的屬性值:

python學習筆記第三章

1.序列,列表和元組和字串統稱為序列,list 生成乙個空列表,list a 將a序列化為列表。tuple a 將a轉為元祖,str a 將a轉為字串,len a 返回a的長度。max a 返回a中的最大值,如果非數字就返回ascii碼值。min a 返回最小值。sum a,start 計算a的和再...

Python學習第三章 列表

列表是由一系列按特定順序排列的元素組成,可以將任何東西加入列表,其中的元素可以彼此沒有任何關係。python中通常用 表示,用逗號分開其中的元素 bicycles trek cannondale redline specialized print bicycles 這樣輸出會將包括方括號在內一起輸出...

python學習 第三章 集合

1.0 集合 1.1集合的寫法 方法 一 s set 1,2,3,4,5,6,7 方法二 list 1,2,3,4,5,6 a set list 1.2 集合的關係測試 s1 set 1,3,5,7 list 2,4,6,7 s2 set list 求交集 print s1.intersection...