import requests
from lxml import etree
from pandas import dataframe
url=''
res=requests.get(url)
res.encoding='gbk'
print(res)
#用etree生成xpath解析物件
root=etree.html(res.text)
print(root)
#利用xpath提取資訊
position=root.xpath('//p[@class="t1 "]/span/a/@title')
extract=root.xpath('//p[@class="t1 "]/span/a/text()')
extract=[extract[i].strip() for i in range(len(extract))]
company=root.xpath('//span[@class="t2"]/a/@title')
place=root.xpath('//div[@class="el"]/span[@class="t3"]/text()') #同一標籤下的多屬性時並列div[@class="el"][@id="22"]
salary=root.xpath('//div[@class="el"]/span[@class="t4"]/text()')
jobinfo=dataframe([position,company,place,salary]).t
jobinfo.columns=['職位','公司','地點','薪資']
jobinfo.to_csv('51jbob.csv',encoding='gbk')
#利用正則匹配 正規表示式中的模式修飾符及應用
#i忽略大小寫 s 讓 . 匹配換行符 m多行匹配
import re
import requests
from pandas import dataframe
import pandas as pd
jobinfoall=dataframe()
for i in range(1,6):
url=''
res=requests.get(url)
res.encoding='gbk'
# 職位
pat=''
position=re.findall(pat,res.text)
# 公司
company_pat='.*
'company=re.findall(company_pat,res.text)
# 地點
place_pat='.*?(.*?)'
place=re.findall(place_pat,res.text,re.s)
# 薪資
salary_pat='.*?(.*?)'
salary=re.findall(salary_pat,res.text,re.s)
jobinfo=dataframe([position,company,place,salary]).t
jobinfo.columns=['職位','公司','地點','薪資']
jobinfoall=pd.concat([jobinfoall,jobinfo]) #把兩個合成乙個
# print(jobinfo)
jobinfoall.to_csv('51jbob1.csv',encoding='gbk')
# len(jobinfoall)
Python爬蟲 將爬取的資料存入excle
本性專案從淘車網爬取資料並將爬下來的資料生成excle 安裝 lxml和xlsxwriter庫的時候飄紅,從terminal和python interpreter安裝都不行,最後試了試cmd 好像是先從cmd用清華映象裝,再從python interpreter裝,剛開始python interpr...
Python爬取微博熱搜榜,將資料存入資料庫
這裡是用來爬取微博熱搜榜的資料,網頁位址為開啟網頁並按下f12進入開發者模式,找到.裡的內容,如圖所示 href後面的內容即為對應的中文編碼的原始碼,其中很多25應該是干擾字元,後面刪掉解析就可以發現是微博熱搜的標題。我數了下,一共有27個,剛好第乙個標題為 比伯願為賽琳娜捐腎 九個字,乙個漢字佔三...
前端獲取到的時間存入資料庫
問題 例項 在確定值班日期的同時,將開始和結束時間存入資料庫,資料庫中開始時間和結束時間的字段型別是datetime,所以採用拼接的形式,將獲取到的值班日期與時間拼接後存入資料庫。彈框部分的 class form group 值班日期label disabled disabled name ddat...