爬取百度熱搜榜小案例

2021-08-27 20:45:54 字數 1418 閱讀 5052

import requests

from bs4 import beautifulsoup

import time

import csv

import datetime

# 得到當前的時間

nowtime = datetime.datetime.now().strftime('%y-%m-%d %h-%m-%s')

# 建立列表儲存新聞標題

new_title =

url_list =

# 建立csv檔案 操作方式為寫入, 檔名為時間

csv_file = open(nowtime + ".csv", "w")

# 建立writer物件,指定檔案與分隔符

csv_writer = csv.writer(csv_file, delimiter=',')

# s = requests.session()

url = ""

# 設定請求頭

headers = {

# 通過乙個get請求獲取網頁資訊

req = requests.get(url, headers=headers)

# 處理亂碼問題

req.encoding = ('gb2312')

# 用beautiful soup 解析網頁

soup = beautifulsoup(req.text, "html.parser")

# 用select選擇出所有新聞的超連結,儲存在url列表中

urls = soup.select('a.list-title')

print(nowtime)

for i in urls:

url = i["href"]

# 獲取新聞題目

# print(str(a)+i.string)

for i in range(len(url_list)):

#    print(urls[i])

req = requests.get(url_list[i], headers=headers)

soup = beautifulsoup(req.text, "html.parser")

reall_urls = soup.select('div > a')

for m in range(24, 200):

try:

if '' in reall_urls[m]["href"]:

print(m)

csv_writer.writerow([i + 1, new_title[i], reall_urls[m + 6]["href"]])

break

except:

continue

time.sleep(1)

csv_file.close()

用Python實現爬取百度熱搜資訊

目錄 何為爬蟲,其實就是利用計算機模擬人對網頁的操作 例如 模擬人類瀏覽購物 使用爬蟲前一定要看目標 可刑不可刑 可以在目標 新增 robots.txt 檢視網頁具體資訊 例如對天貓 可輸入 進行檢視 user agent 代表傳送請求的物件 星號 代表任何搜尋引擎 disallow 代表不允許訪問...

爬取新浪微博熱搜榜

一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...

get案例 爬取百度貼吧

需求 爬取貼吧的資料 1.輸入爬取貼吧的主題 列如 火影忍者 2.輸入起始頁和終止頁 列如 3 5 3.把每一頁的資料儲存到本地 列如 第一頁.html 第二頁.html 思路第一頁 第二頁 第三頁 第四頁 pn page 1 50 發起請求 資料 儲存資料 python import urllib...