# 使用美麗湯爬取三國演義
# 定位元素和屬性三種方式:beautifulsoup 正則 xpath
# soup.tagname soup.find('') soup.find_all('') soup.select('')
import requests
from bs4 import beautifulsoup
if __name__==
"__main__"
: headers =
url =
''page_text = requests.get(url=url,headers=headers)
.text
soup = beautifulsoup(page_text,
'lxml'
) li_list = soup.select(
'.book-mulu > ul > li'
) fp =
open
('./sanguo.txt'
,'w'
,encoding=
'utf-8'
)for li in li_list:
title = li.a.string ########標籤直系文字 子文字 不含孫文字
#detail_url =
''+ li.a[
'href'
] detail_text = requests.get(url=detail_url,headers=headers)
.text
soup = beautifulsoup(detail_text,
'lxml'
)#詳情頁的soup 之前的soup傳的是主頁面text
content_text = soup.find(
'div'
,class_=
'chapter_content'
).text #.text get_text() 獲取這個標籤下的所有text元素 包括子元素的text
#.string 只獲取該標籤這一級的text元素
fp.write(title+
':'+content_text+
'\n'
)print
(title,
'爬取成功!!'
)
python爬蟲學習(五)
目標 破解有道翻譯介面,抓取翻譯結果 結果展示 請輸入要翻譯的詞語 elephant 翻譯結果 大象 請輸入要翻譯的詞語 喵喵叫 翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞,觀察form表單資料變化 ...
python網路爬蟲筆記(五)
一 python的類物件的繼承 1 所有的父類都是object類,由於類可以起到模組的作用,因此,可以在建立例項的時候,巴西一些認為必須要繫結的屬性填寫上去,通過定義乙個特殊的方法 init 繫結屬性值 注意 init 方法的第乙個引數永遠是self,表示建立的是例項本身,在 init 方法內部,就...
python爬蟲學習筆記
一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...