功能:bs4提取結果
目錄: 一: 登入拉勾網
'''
一: 登入拉勾網
#coding:utf-8
import
requests
import
refrom bs4 import
beautifulsoup
import
urllib3
import
hashlib
urllib3.disable_warnings()
import
sysclass
loginlgw():
def__init__
(self, s):
self.s =s
defgettoekncode(self):
'''獲取拉勾網 - token和code
:return:
'''#
更新資料 - 頭部資訊
url = "
"head =
self.s.headers.update(head)
#獲取資料 - token和code
data = self.s.get(url, verify =false)
soup = beautifulsoup(data.content, "
html.parser
", from_encoding="
utf-8")
tokencode ={}
try:
t = soup.find_all("
script
")[1].get_text()
tokencode[
'x_anti_forge_token
'] = re.findall(r"
token = '(.+?)'
", t)[0]
tokencode[
'x_anti_forge_code
'] = re.findall(r"
code = '(.+?)'
", t)[0]
return
tokencode
except
:
print("
get faild")
tokencode[
'x_anti_forge_token
'] = ""
tokencode[
'x_anti_forge_code
'] = ""
return
tokencode
defencryptpwd(self, passwd):
'''密碼加密
:param passwd: 原始密碼
:return: 加密密碼
'''passwd = hashlib.md5(passwd.encode("
utf-8
")).hexdigest() #
md5加密
passwd = "
veenike
" + passwd + "
veenike"#
veennike : js檔案 - 寫死的值
passwd = hashlib.md5(passwd.encode("
utf-8
")).hexdigest() #
md5加密
return
passwd
deflogin(self, user, password):
'''登入拉勾網
:param user: 使用者名稱
:param password: 密碼
:return: 登入成功 - 服務資訊
'''#
獲取資料 - token和code
tokencode =self.gettoekncode()
(tokencode)
#密碼加密
password =self.encryptpwd(password)
(password)
#更新資料 - 頭部資訊
url = "
"head =
self.s.headers.update(head)
#登入**
body =
r = self.s.post(url, data=body, verify=false)
try:
(r.text)
return
r.json()
except
:
print("
login faild: %s
" %r.text)
return
none
if__name__ == "
__main__":
s =requests.session()
lgw =loginlgw(s)
lgw.login(
"user
", "password
")
d45ef25791078e956e6915ba194d776a,"message
":"操作成功
","state
":1,"
submitcode
":76585064,"
submittoken
":"1e756b35-4bbe-4853-b1b8-767042f86771
"}
python之Bs4的使用
bs4是乙個可以幫助我們快速解析文件,獲取我想要的標籤和內容的第三方庫 beautifulsoup用來解析html等文字格式 引入bs4和re html.parser指定乙個解析器,代表解析html文件嗎,因為beautifulsoup不僅僅可以解析html,其他的一些文件格式也可以解析 bs be...
requests和bs4的python爬蟲入門
現在就簡單的講下這幾個月的學習成果嘛 爬蟲其實爬的都是源 然後再通過對源 進行過濾,得出我們想要的東西 有時會需要一些正則的東西 這裡面有一些lazyload的,就需要 selenium webdriver 什麼的了,這個還沒研究到哈,勿噴勿噴。上面的答案也有提到過,用requests和bs4寫爬蟲...
python爬蟲資料解析之bs4
步驟 1 匯入bs4庫 from bs4 import beautifulsoup2 獲取soup物件 html為你獲取的網頁源 將html轉化為特定的格式lxml 為後面提取資訊做準備 soup beautifulsoup html,lxml 3 利用方法選擇器解析 find all 查詢所有符合...