安裝:pip install python-whois
import whois
print(whois.whois("網域名稱"))
安裝:pip install requests
安裝:pip install beautifulsoup4
#解析格式錯誤的html
from bs4 import beautifulsoup
from ppprint import pprint
broken_html = ''
#html.parser 是一種解析器
soup = beautifulsoup(broken_html,'html.parser')
fixed_html = soup.prettify()
pprint(fixed_html)
html.parser解析器不準確的時候,可以使用html5lib
安裝:pip install html5lib
#解析格式錯誤的html
from bs4 import beautifulsoup
from ppprint import pprint
broken_html = ''
#改用html5lib
soup = beautifulsoup(broken_html,'html5lib')
fixed_html = soup.prettify()
pprint(fixed_html)
html解析正確後,可使用find()和findall()方法定位我們所需的元素
ul = soup.find('ul',attrs=)
ul.find('li') #返回第乙個匹配元素
ul.findall('li') #返回所有匹配元素
windows安裝說明鏈結
安裝cssselect庫,使用css選擇器
安裝:pip install cssselect
tree = fromstring(html)
td = tree.cssselect('tr#id > td.classname')[0]
area = td.text_content()
print(area)
css選擇器無法正常工作的時候(html非常不完整或存在格式不當的元素時),可使用xpath選擇器。
tree = fromstring(html)
area = tree.xpath('//tr[@id="id"]/td[@class="classname"]/text()')[0]
print(area)
安裝:pip install pillow
安裝:pip install pytesseract
#常規應用方法只能識別典型的文字
import pytesseract
img = get_captcha_img(html.content)
pytesseract.image_to_string(img)
#一般都需要對進行處理,如轉換為灰度影象等
學習書籍:
1、《用python寫網路爬蟲(第二版)》 中國工信出版集團 人民郵電出版社
2、《python程式設計無師自通》 中國工信出版集團 人民郵電出版社
常用工具包
mac環境下python虛擬環境的安裝和配置 配置.bash log檔案 vim bash log 3.執行該檔案 source bash log 4.建立虛擬環境 mkvirtualenv virtualenv 匯出和安裝依賴包 pip install r requirements.txt pip...
centos7 常用工具包安裝
1 yum y install lrzsz rz 檔名 上傳 2.gcc nginx之類由c語言開發的,編譯的時候需要用到 yum y install gcc c 3.pcre perl庫,包括 perl 相容的正規表示式庫 yum y install pcre pcre devel 4.zlib ...
Python常用工具PyCharm
pycharm 是我用過的python編輯器中,比較順手的乙個。而且可以跨平台,在macos和windows下面都可以用,這點比較好。首先預覽一下 pycharm 在實際應用中的介面 更改了pycharm的預設風格 安裝pycharm 的啟用方式 1,推薦購買正版。2,可以選擇試用,免費試用30天。...