小白python爬蟲學習1(vscode 亂碼)

2021-10-18 11:52:42 字數 853 閱讀 5459

import requests

from bs4 import beautifulsoup

import chardet

target_url = ""

r = requests.get(url=target_url)

bs = beautifulsoup(r.text, 'lxml')

list_con_li = bs.find('ul', class_="list_con_li")

comic_list = list_con_li.find_all('a')

chapter_names =

chapter_urls =

for comic in comic_list:

href = comic.get('href')

name = comic.text

chapter_names.insert(0, name)

chapter_urls.insert(0, href)

print(chapter_names)

print(chapter_urls)

查閱其他部落格,發現可能的問題

1.是網頁編碼雖然是utf-8,但還用了gzip懷疑可能影響,之後找解決方法,但還沒找到可以用的

2vscode本身的問題,網上查了關於print的問題,找到了倆個簡便的方法

1不用run code,用除錯即f5來解決問題,亂碼問題不在,

2在**前填上

import io

import sys

#改變標準輸出的預設編碼

也可以解決,

至於為啥是這麼個結果我也不懂,希望有大佬幫忙解釋一下

Cg入門介紹1 VS工程設定

1.介紹 cg是由nvidia公司和ms公司聯合設計的乙個針對圖形卡硬體程式設計的高階語言。cg的編譯器可以將cg轉化為組合語言,然後交由圖形卡處理器執行。本篇文章主要介紹一下在vs.net2003下開發opengl程式時,引入cg所需要進行的各項設定。3.工程設定 每次建立乙個新工程的時候都需要重...

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...

python爬蟲 學習1

1 import requests 2from bs4 import beautifulsoup 3import bs44 defgethtmltext url 獲取html內容,利用try和except框架可以丟擲異常 5try 6 r requests.get url,timeout 30 獲取...