Python爬蟲學習筆記(五)

2021-10-24 19:44:21 字數 1198 閱讀 1705

# 使用美麗湯爬取三國演義

# 定位元素和屬性三種方式:beautifulsoup 正則 xpath

# soup.tagname soup.find('') soup.find_all('') soup.select('')

import requests

from bs4 import beautifulsoup

if __name__==

"__main__"

: headers =

url =

''page_text = requests.get(url=url,headers=headers)

.text

soup = beautifulsoup(page_text,

'lxml'

) li_list = soup.select(

'.book-mulu > ul > li'

) fp =

open

('./sanguo.txt'

,'w'

,encoding=

'utf-8'

)for li in li_list:

title = li.a.string ########標籤直系文字 子文字 不含孫文字

#detail_url =

''+ li.a[

'href'

] detail_text = requests.get(url=detail_url,headers=headers)

.text

soup = beautifulsoup(detail_text,

'lxml'

)#詳情頁的soup 之前的soup傳的是主頁面text

content_text = soup.find(

'div'

,class_=

'chapter_content'

).text #.text get_text() 獲取這個標籤下的所有text元素 包括子元素的text

#.string 只獲取該標籤這一級的text元素

fp.write(title+

':'+content_text+

'\n'

)print

(title,

'爬取成功!!'

)

python爬蟲學習(五)

目標 破解有道翻譯介面,抓取翻譯結果 結果展示 請輸入要翻譯的詞語 elephant 翻譯結果 大象 請輸入要翻譯的詞語 喵喵叫 翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞,觀察form表單資料變化 ...

python網路爬蟲筆記(五)

一 python的類物件的繼承 1 所有的父類都是object類,由於類可以起到模組的作用,因此,可以在建立例項的時候,巴西一些認為必須要繫結的屬性填寫上去,通過定義乙個特殊的方法 init 繫結屬性值 注意 init 方法的第乙個引數永遠是self,表示建立的是例項本身,在 init 方法內部,就...

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...