段子網爬取段子

2021-10-02 23:22:50 字數 910 閱讀 7738

2re提取標題和內容–

問題一:複製網頁源**寫入txt,更改字尾為html發現開啟後頁面不一樣

搜尋知道 網頁顯示還需要其他支撐

問題二:標題和內容數目不對應

檢查發現re寫的不全,下次應先檢查時先看網頁顯示介面找排版 規律,再看元素規律,類似實現時可加上print(num)來檢驗內容標題數目是否對應

3寫入txt文件–

import re

import requests

url=

''headers=

r=requests.get(url=url,headers=headers)

pat=

'.*?)'

pat2=

'(.*?)

'data=r.text

rst=re.

compile

(pat)

.findall(data)

rst2=re.

compile

(pat2)

.findall(data)

print

(len

(rst)

)print

(len

(rst2)

)with

open

("f:/test/duanzi.txt"

,"a"

)as f:

for i in

range

(len

(rst)):

f.write(

str(i+1)

+" "

+rst[i]

+"\n"

+rst2[i]

+"\n"

)

java爬取捧腹網段子

先上效果圖 準備工作 建立http連線 public static string connect string address catch exception e finally catch exception e return stringbuffer.tostring 用於將內容寫入到磁碟檔案 ...

Python實戰爬蟲 爬取段子

不管三七二十一我們先導入模組 段子所在的 import re import requests 如果沒這模組執行cmd pip install requests領域 web開發,爬蟲,資料分析,資料探勘,人工智慧 零基礎到專案實戰,7天學習上手做專案 獲取 的內容 段子所在的 import re im...

爬取糗事百科段子

user bin env python coding utf 8 author holley file baike1.py datetime 4 12 2018 14 32 description import requests import re import csv from bs4 impor...