Python爬蟲學習筆記（五）

# 使用美麗湯爬取三國演義
#  定位元素和屬性三種方式：beautifulsoup 正則 xpath
#  soup.tagname   soup.find('')     soup.find_all('')     soup.select('')
import requests
from bs4 import beautifulsoup
if __name__==
"__main__"
:    headers =
url =
''page_text = requests.get(url=url,headers=headers)
.text
soup = beautifulsoup(page_text,
'lxml'
)    li_list = soup.select(
'.book-mulu > ul > li'
)    fp =
open
('./sanguo.txt'
,'w'
,encoding=
'utf-8'
)for li in li_list:
title = li.a.string  ########標籤直系文字 子文字 不含孫文字
#detail_url =
''+ li.a[
'href'
]        detail_text = requests.get(url=detail_url,headers=headers)
.text
soup  = beautifulsoup(detail_text,
'lxml'
)#詳情頁的soup  之前的soup傳的是主頁面text
content_text = soup.find(
'div'
,class_=
'chapter_content'
).text #.text get_text() 獲取這個標籤下的所有text元素 包括子元素的text
#.string 只獲取該標籤這一級的text元素
fp.write(title+
':'+content_text+
'\n'
)print
(title,
'爬取成功！！'
)

python爬蟲學習（五）

目標破解有道翻譯介面，抓取翻譯結果結果展示請輸入要翻譯的詞語 elephant 翻譯結果大象請輸入要翻譯的詞語喵喵叫翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞，觀察form表單資料變化 ...

python網路爬蟲筆記（五）

一 python的類物件的繼承 1 所有的父類都是object類，由於類可以起到模組的作用，因此，可以在建立例項的時候，巴西一些認為必須要繫結的屬性填寫上去，通過定義乙個特殊的方法 init 繫結屬性值注意 init 方法的第乙個引數永遠是self，表示建立的是例項本身，在 init 方法內部，就...

python爬蟲學習筆記

一爬蟲思路對於一般的文章而言，思路如下 1.通過主頁url獲取主頁原始碼，從主頁原始碼中獲得標題鏈結如想要抓取知乎上的新聞，就獲得主頁上的新聞鏈結 2.繼續通過標題鏈結獲得標題原始碼，進而獲得標題中的內容。其中，當存在多頁時，先將每一頁都一樣的url寫下來，然後迴圈加入頁碼，具...

Python爬蟲學習筆記（五）

python爬蟲學習（五）

python網路爬蟲筆記（五）

python爬蟲學習筆記

相關推薦