1.pip包管理
(1)內建庫
包/庫:別人寫好的**,直接引用,加快開發效率。
內建包:python直譯器內建常用功能庫。
– 直譯器安裝目錄/lib資料夾下, os time urllib等
– 資料夾裡有__init__.py 就成了乙個包。
(2)關於http模擬和html源**解析
python時代: urllib urllib2
由第三方程式設計師做了乙個新http請求庫,比官方更方便,urllib3
又有乙個程式設計師,在urllib3基礎上進一步封裝和優化,requests
python3時代 內建庫統一為urllib
結論:建議直接使用requests
(3)第三方庫
pypi.org 上豐富的各種功能的庫
①pip包管理工具
在伺服器上沒有圖形介面的瀏覽器.開發語言第三方庫往往用命令行包管理工具
直譯器/script/pip.exe
第三方庫安裝的位置: 直譯器目錄\lib\site-packages\
參考[pip換源](
豆瓣 阿里雲
清華大學
2.requests基本用法
requests 是用python語言編寫,基於 urllib,採用 apache2 licensed 開源協議的 http 庫。它比 urllib 更加方便,可以節約我們大量的工作,完全滿足 http 測試需求。requests 的哲學是以 pep 20 的習語為中心開發的,所以它比 urllib 更加 pythoner。下面我以**的形式簡單寫其中常用的幾個知識點:
3.debug模式
debug模式也就是除錯執行模式
具體操作過程可以分為三步:
1.打斷點
2.以debug執行
3.f8向下執行單步,觀察變數值
4.html解析—正則
①我們已經用requests模擬請求,拿到網頁源**,str字串,裡面html模式
#需要分析
字串自帶的find方法功能有限,如下:
因此有三種解析方法:
解析方式一:正則 regex,專門針對字串處理的語法
(不推薦,了解即可)
5.html解析—bs庫(不推薦,了解即可)
#網頁html本身就是樹狀層狀結構,按照層次去找
#beautiful-soup庫 是python2時代的庫,
#適合python3的是beautifulsoup4
#用』pip install beautifulsoup4『來安裝第三方庫
6.html解析—xpath
#xpath表示式有自己的語法,但沒有正則那麼複雜,類似bs4庫按照html層級查詢
#用』pip install lxml『來進行第三方庫的安裝
資料分析與視覺化(python)
print 中 encode encoding gbk b xd6 xd0 gbk編碼 乙個漢字兩個位元組 為了節省流量 國內有人仍堅持gbk 中 encode encoding utf 8 對於中文,gbk比utf8節省三分之一的空間 解碼 二進位制 自然資訊 eg b xd6 xd0 decod...
資料分析總結四 視覺化與資料分析
資料視覺化 資料視覺化的目的是讓資料更高效,讓讀者更高效閱讀,而不單是自己使用,突出資料背後的規律 突出重要的因素,最後是美觀。散點圖主要解釋資料之間的規律。氣泡圖是散點圖的變種,引入了第三個度量作為 氣泡的大小。維度作y軸,更傾向於洞 察資料在不同類別下的 資料規律 消費金額和消費次數的關係 消費...
Python 資料分析視覺化
1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...