將html解析未標籤樹,和beautifulsoup一樣,會自動補全缺失的標籤。不同的是lxml是用c語言寫的,速度會更快。
# 1.html.fromstring 不會自動補全缺失標籤
import requests
from lxml import html
session_url = ''
s = requests.session()
r = s.get(login_url)
#轉換成結構樹
tree = html.fromstring(r.text)
el = tree.xpath('//input[@name="authenticity_token"]')[0]
# 2.etree.html
from lxml import etree
a = '''
head
段落1段落2html = etree.html(a)
html.xpath('//h') #
'''html = etree.html(a)
參考:
1.lxml.etree.html(text) 解析html文件
2.xpath全面總結
3.lxml.html 中幾種解析器的區別(蠻詳細的,雖然缺少總結,但是研究方式很棒)
4.(不合時宜得參考)檢視python的模組和函式幫助文件方法
文1指出,fromstring 不支援殘缺片段,不會自動補全
Android Studio使用疑難問題彙總
一 no changes detected 該問題是在使用android studio對專案進行svn上傳時出現的如圖 解決辦法是 將add silently 選中,然後重新建個專案就可以上傳了。ps 但是經過上面的修改還是不起作用,最後把tortoisesvn的版本從1.9換成1.7就好了。二 s...
Mybatis知識小匯(7) 使用註解開發
面向介面程式設計 1.關於介面的理解。介面從更深層次的理解,應是定義 規範,約束 與實現 名實分離的原則 的分離。介面的本身反映了系統設計人員對系統的抽象理解。介面應有兩類 第一類是對乙個個體的抽象,它可對應為乙個抽象體 abstract class 第二類是對乙個個體某一方面的抽象,即形成乙個抽象...
飛天技術匯 用混合雲,資料災備原來這麼簡單
這期飛天技術匯你將看到 2017年5月12日,全球性wannacry蠕蟲病毒事件導致銀行atm機 罷工 加油站的電腦 停業 連警察局都中招。台積電也曾發生大規模勒索病毒中毒事件,所幸該公司有備份的習慣,減少很多損失,但因為業務中斷造成了不小的傷害。艾默生調查報告顯示 資料中心故障每分鐘為企業帶來損失...