昨天突然遇到了乙個需要統計某個**所有頁面單詞數的任務,於是從零開始學起python搞抓取。
看了一下資料,需要用到下面幾個庫:
import requests
from bs4 import beautifulsoup
import lxml
import re
url = ""
homepage = requests.get(url).text
#檢查返回頁面的內容
#print (homepage)
soup = beautifulsoup(homepage,'lxml')
for linkpage in soup.find_all('a'):
linkpage2 = linkpage.get('href')
#檢查有哪些連線
#print(linkpage.get('href'))
if linkpage2.startswith(url):
#正規表示式刪除末尾的錨位
print(re.sub(r'\#.*',"",linkpage2))
elif linkpage2.startswith("/"):
print(url + re.sub(r'\#.*',"",linkpage2))
零開始學python 從零開始學Python
第1章 python入門 1 1 1 什麼是python 1 1 2 python語言有什麼特點 2 1 3 python可以幹什麼 4 練一練 5 第2章 準備開發環境 6 2 1 在windows上安裝python開發環境 6 2 2 選擇和安裝開發工具 11 練一練 17 第3章 基本概念 1...
從零開始學android
相對布局管理器指的是參考某一其他控制項進行擺放,可以通過控制,將元件擺放在乙個指定參考元件的上 下 左 右等位置,這些可以直接通過各個元件提供的屬性完成。下面介紹一下各個方法的基本使用 no.屬性名稱 對應的規則常量 描述1 android layout below relativelayout.b...
從零開始學 樹
在之前做二級的題的時候,偶爾會碰見二叉樹,很自然的就想起了樹,那麼什麼是樹呢?這裡說的可不是外面的參天大樹,而是有實際概念的樹,下面就來介紹一下樹。樹是由n n 0 個結點組成的有限集合。若n 0,稱為空樹 若n 0,則 1 有乙個特定的稱為根 root 的結點。它只有直接後繼,但沒有直接前驅 2 ...