直譯器(我下的是3.8.2版本):
pycharm(我下的是2019.3.3版本):
注意:python安裝時要勾選
pycharm安裝時這四個全選上
檢查python是否安裝好可以在cmd命令中輸入python,出現下圖即可
2.爬取網頁資訊(以浙工大為例)
# -*- codeing = utf-8 -*-#@time :view code2022/2/20
16:44
#@auther : 葉丹薇
#@file : spider.py
#@software: pycharm
from
bs4 import beautifulsoup #網頁解析
import re #正則
import urllib.request,urllib.error #制定url 獲取網頁資料
import sqlite3 #資料庫
import xlwt #excel
def main():
baseurl="
"#1.爬取網頁
datalist=getdata(baseurl)
s**epath="
導師.xls
"#3儲存
s**edata(datalist,s**epath)
findname=re.compile(r'
(.*?)
')#finddire=re.compile(r'
研究方向:(.*?)
')#"
#">空間資訊計算研究所
findcoll=re.compile(r'
(.*?)')
#1.爬取網頁
def getdata(baseurl):
datalist=
for j in range(35,50
): url=baseurl+str(j)
html=askurl(url)
if(html==''):continue#2
.逐一解析資料
soup=beautifulsoup(html,"
html.parser")
item0=soup.find_all('
div',id="
boxtitle3")
item0=str(item0)
colle = re.findall(findcoll,item0)[1
]
for item in soup.find_all('
div',style="
width:100%; float:left
"):#查詢符合要求的字串
item=str(item)
teacher=re.findall(findname,item)
director =re.findall(finddire, item)
for i in
range(len(teacher)):
data =
# print(data)
# print(datalist)
return
datalist
#得到指定url的網頁內容
def askurl(url):
#模擬瀏覽器頭部,進行偽裝
head=
request=urllib.request.request(url,headers=head)#請求
html=""
try:
response=urllib.request.urlopen(request)#響應
html=response.read().decode("
utf-8")
# print(html)
except urllib.error.urlerror
ase:
#print(
"這頁沒有內容")
html=''
return
html
#儲存資料
def s**edata(datalist,s**epath):
book=xlwt.workbook(encoding="
utf-8
")#建立word物件
sheet=book.add_sheet('
老師',cell_overwrite_ok=true)#建立sheet表
col=("
姓名","
研究所","
研究方向")
for i in range(0,3
): sheet.write(
0,i,col[i])
for i in range(0
,len(datalist)):
#print(
"第%d條
"%(i+1
)) data=datalist[i]
for j in range(0,3
): sheet.write(i+1
,j,data[j])
book.s**e(s**epath)
if __name__=="
__main__":
main()
Python簡單爬蟲(爬取天氣資訊)
初學python,學到python爬蟲時在網上找資料,發現找到的大部分都是前部分內容對運作方式介紹,然後就直接上 了,這樣對像我一樣的小白來說比較困難,的注釋較少,部分 塊沒有詳細說明運作方式和具體作用,所以寫此筆記方便別人和自己以後進行學習檢視。作業系統window python2.7.10 wi...
python爬蟲爬取豆瓣電影資訊
我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...
python爬蟲爬取騰訊招聘資訊 (靜態爬蟲)
環境 windows7,python3.4 親測可正常執行 1 import requests 2from bs4 import beautifulsoup 3from math import ceil 45 header 78 9 獲取崗位頁數 10def getjobpage url 11 re...