import requests
from bs4 import beautifulsoup
import time
import csv
import datetime
# 得到當前的時間
nowtime = datetime.datetime.now().strftime('%y-%m-%d %h-%m-%s')
# 建立列表儲存新聞標題
new_title =
url_list =
# 建立csv檔案 操作方式為寫入, 檔名為時間
csv_file = open(nowtime + ".csv", "w")
# 建立writer物件,指定檔案與分隔符
csv_writer = csv.writer(csv_file, delimiter=',')
# s = requests.session()
url = ""
# 設定請求頭
headers = {
# 通過乙個get請求獲取網頁資訊
req = requests.get(url, headers=headers)
# 處理亂碼問題
req.encoding = ('gb2312')
# 用beautiful soup 解析網頁
soup = beautifulsoup(req.text, "html.parser")
# 用select選擇出所有新聞的超連結,儲存在url列表中
urls = soup.select('a.list-title')
print(nowtime)
for i in urls:
url = i["href"]
# 獲取新聞題目
# print(str(a)+i.string)
for i in range(len(url_list)):
# print(urls[i])
req = requests.get(url_list[i], headers=headers)
soup = beautifulsoup(req.text, "html.parser")
reall_urls = soup.select('div > a')
for m in range(24, 200):
try:
if '' in reall_urls[m]["href"]:
print(m)
csv_writer.writerow([i + 1, new_title[i], reall_urls[m + 6]["href"]])
break
except:
continue
time.sleep(1)
csv_file.close()
用Python實現爬取百度熱搜資訊
目錄 何為爬蟲,其實就是利用計算機模擬人對網頁的操作 例如 模擬人類瀏覽購物 使用爬蟲前一定要看目標 可刑不可刑 可以在目標 新增 robots.txt 檢視網頁具體資訊 例如對天貓 可輸入 進行檢視 user agent 代表傳送請求的物件 星號 代表任何搜尋引擎 disallow 代表不允許訪問...
爬取新浪微博熱搜榜
一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...
get案例 爬取百度貼吧
需求 爬取貼吧的資料 1.輸入爬取貼吧的主題 列如 火影忍者 2.輸入起始頁和終止頁 列如 3 5 3.把每一頁的資料儲存到本地 列如 第一頁.html 第二頁.html 思路第一頁 第二頁 第三頁 第四頁 pn page 1 50 發起請求 資料 儲存資料 python import urllib...