序言:
今天學習如何使用第三方工具beautiful soup來輔助python寫爬蟲程式。
beautiful soup具體使用時:
1.使用時需要先建立乙個soup物件,其中第二引數為解析器的模式(解析器有幾種模式,具體分類可以到beautiful soup的文件中尋找,而html.parser為標準模式),語句具體如下:
soup = beautifulsoup(此前你鏈結**後儲存的**原始碼的變數,」html.parser」);
2.獲取**標籤選擇器中整體可以在**原始碼中尋找到具體的該選擇器然後進行獲取,以title為例:
title = soup.title;
3.獲取標籤中的內容:
print("",title.string);
4. 獲取標籤的名稱
print(「標籤的名稱:」,title.name);
5. 獲取標籤內容(注意,通過標籤獲取的時候預設只查詢第乙個資料)
link = soup.link;
6. 獲取link標籤中對應的值
print(「href:」,link[「href」]);
7. 查詢標籤的父容器名稱
print(「father』name:」,link.parent.name);
8. 查詢到所有的link標籤
links = soup.find_all(「link」);
print(「檔案中所有的標籤為:」,links);
for link_01 in links:
print(link_01);
print(link_01[「href」]);
pass
9.只匹配全文中第乙個資料,需加限制條件
link_02 = soup.find(「link」,attrs=);
10.查詢:
div_01 = soup.find_all(「div」,attrs=);
div_02 = div_01[0].find_all(「div」,attrs=);
11. 迴圈輸出文字:
for name in div_02:
print(name.string);
pass
python學習日誌
1 python中range xrange 和np.arange 區別 range 多用於迴圈,返回乙個range物件,若想要返回乙個list則前面加上list轉換 arange 是numpy中的函式,np.range 返回乙個array型別的物件,可以使用小數步長 xrange 返回xrange ...
Python學習日誌
元組不可修改,但是可以給儲存元組的變數賦值。現在每學乙個東西就會莫名的拿去和之前學過的東西做一比較,python是真的太舒服了。當然寫for or if 都是要記得後面的 而且也可以進行級聯,只不過是if,elfe,else。還可以用in來判斷某個元素在沒有某個列表裡面。字典是一系列鍵值對,新增起來...
python 學習日誌
1 pip is already installed if you re using python 2 2.7.9 or python 3 3.4 binaries downloaded from python.org,but you ll need to upgrade pip 2 upgradi...