今天繼續學習python想要爬取研究生招生資訊網的資料並存入資料庫
遇到的困難:爬取資料還不熟練,我只得到了一行一列/哭唧唧
總結:
importbs4import
pymysql
import
requests
from bs4 import
beautifulsoup
import
pandas as pd
defdownload_all_htmls():
htmls=;
for idx in range(2):
url=f"
"print("
craw html
",url)
r=requests.get(url)
if r.status_code!=200:
raise exception("
error")
return
htmls
htmls=download_all_htmls()
defparse_single_html(html):
name1=;
soup=beautifulsoup(html,'
html.parser')
tbody=soup.find('
tbody')
print("1"
)
ifisinstance(tbody, bs4.element.tag):
name=tbody.find('
tr').find('
td').find('a'
)'',''
))
(name1)
return
name1
for idex in range(2):
name2=parse_single_html(htmls[idex])
conn =pymysql.connect(
host='
localhost
', #
我的ip位址
port=3306, #
不是字串不需要加引號。
user='
root',
password='
zhangziyi1670',
db='
yanhu',
charset='
utf8')
cursor = conn.cursor() #
獲取乙個游標
for idex in range(2):
sql = '
insert into school (name,fenshu,bili) values (%s,%s,%s);
'name =parse_single_html(htmls[idex])
fenshu=420bili=0.2cursor.execute(sql, [name,fenshu,bili])
()conn.commit()
cursor.close()
conn.close()
注:沒找到各個學校對應的分數線與報錄比,先用固定數字代替
錯題整理(422)
表尾是指除去表頭後剩下的元素組成的表,表頭可以為表或單元素值,表尾是指除去表頭後剩下的元素組成的表 即使只剩乙個元素也視為表 可以為空表。有乙個100 90的稀疏矩陣,非0元素有10個,設每個整型數占2位元組,則用三元組表示該矩陣時,所需的位元組數是 每個元素要用行號,列號,元素值來表示,在用三元組...
ABAP學習筆記 4 22 READ語句相關
用自定義關鍵字讀取單行 要從有自定義關鍵字的內錶中讀取單行,請使用read語句的with key選項,用法如下 語法read table into with key binary search 用 into 選項可以指定目標區域 如果 有表頭行,則可以忽略 into 選項。這樣,工作區域就成了目標區...
4 2 2 螢幕保護程式
依次選擇 系統 首選項 螢幕保護程式 命令開啟 螢幕保護程式首選項 對話方塊,如圖 4.10 所示。要開啟螢幕保護功能,應該確保在 計算機空閒時啟用螢幕保護程式 核取方塊中打鉤。在左側的 主題 列表框中選擇相應的屏保主題,就可以在右側的預覽框中看到效果。ubuntu 附帶了很多螢幕保護主題,其中一些...