這只是原始碼,沒什麼意思,有意思的在這裡:震驚!我用python分析了天蠶土豆的玄幻三部曲竟然發現…
import re
import threading
from pyquery import pyquery as pq
headers =
# 獲取鏈結和標題
defget_href_and_title
(url)
: lists =
html = pq(url, headers, encoding=
"utf-8"
) i =
0for item in html(
"#list > dl > dd"
).items():
i +=
1if i >9:
(""+ item(
'a')
.attr(
'href'
), item.text())
)if item.text()==
"第一千六百二十三章 結束,也是開始。"
:break
return lists
# 獲取**網頁內容
defget_one_page
(url)
: contents1 =
"".join(
re.findall(
"(.*?)[\(|(]"
, pq(url, headers, encoding=
"utf-8")(
"#content"
).text(
).replace(
"\n",""
))) contents2 = pq(url, headers, encoding=
"utf-8")(
"#content"
).text(
).replace(
"\n",""
)return contents1 if contents1 !=
""else contents2
defmain()
:for item in get_href_and_title(
"/57_57672/"):
chapter_url, chapter_title = item
if chapter_title[0]
!="第"
:continue
with
open
('c:\天蠶土豆\doupocangqiong\{}.txt'
.format
(chapter_title)
,"w"
, encoding=
"utf-8"
)as f:
f.write(get_one_page(chapter_url)
)print
(chapter_url, chapter_title)
if __name__ ==
'__main__'
: threading.thread(target=main())
.start(
)
import re
import threading
from pyquery import pyquery as pq
headers =
# 獲取鏈結和標題
defget_href_and_title
(url)
: lists =
for item in pq(url, headers)
("#list > dl > dd"
).items():
if item.text()[
0]!="第"
:continue
(""+ item(
'a')
.attr(
'href'
), item.text())
)return lists
# 獲取**網頁內容
defget_one_page
(url)
:return
"".join(re.findall(
, pq(url, headers, encoding=
"utf-8")(
"#content"
).text(
).replace(
"\n",""
)))def
main()
:for item in get_href_and_title(
"/15/15/"):
chapter_url, chapter_title = item
with
open
('c:\天蠶土豆\wudongqiankun\{}.txt'
.format
(chapter_title)
,"w"
, encoding=
"utf-8"
)as f:
f.write(get_one_page(chapter_url)
)print
(chapter_url, chapter_title)
if __name__ ==
'__main__'
: threading.thread(target=main())
.start(
)
import re
import threading
from pyquery import pyquery as pq
headers =
# 獲取鏈結和標題
defget_href_and_title
(url)
: lists =
html = pq(url, headers, encoding=
"gbk"
)for item in html(
"#main > div > dl > dd"
).items():
if item(
'a')
.attr(
'href')is
none
:continue
(item(
'a')
.attr(
'href'
), item.text())
)return lists
# 獲取**網頁內容
defget_one_page
(url)
: contents1 =
"".join(re.findall(
"(.*?)[(|(]"
, pq(url, headers, encoding=
"gbk")(
"#booktext"
).text(
).replace(
"\n",""
))) contents2 = pq(url, headers, encoding=
"gbk")(
"#booktext"
).text(
).replace(
"\n",""
)return contents1 if contents1 !=
""else contents2
defmain()
:for item in get_href_and_title(
""):
chapter_url, chapter_title = item
if chapter_title[0]
!="第"
:continue
with
open
('c:\天蠶土豆\dazhuzai\{}.txt'
.format
(chapter_title.replace(
"?","")
.replace(
"?","")
),"w",
encoding=
"utf-8"
)as f:
f.write(get_one_page(chapter_url)
)print
(chapter_url, chapter_title)
if __name__ ==
'__main__'
: threading.thread(target=main())
.start(
)
都是乙個套路,**可以直接拿來用。 Python爬取小說 2 單章節爬取
coding utf 8 urlopen 開啟 request 請求 from urllib.request import urlopen,request 匯入gzip包 解壓gzip 封裝請求 req request url path,headers headers 開啟鏈結 conn urlop...
python動態爬取知乎 python爬取微博動態
在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...
爬取電影資源之網頁爬取篇(python)
6v電影網的主頁分為三列,如下圖所示。該網每天會推薦一些電影 如上圖中的 今日推薦 電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。然後我們檢視其原始碼,找到該部分的 還是很好找的,網頁結構比較簡單 見下圖 為了驗證找到的 區域是否為我們需要的,可以把圖中框出的 複製到乙個...