>
… name
>
/>
‐‐>
例項:>
>
tianfirstname
>
>
songlastname
>
>
>
中關村南大街5號streetaddr
>
>
北京市city
>
>
100081zipcode
>
address
>
>
computer systemprof
>
>
securityprof
>
person
>
「key」 : 「value」
「key」 :
[「value1」, 「value2」]
「key」 :
例項:,
「prof」 :
[ 「computer system」 , 「security」 ]
}
key
: value
key:
#comment
‐value1
‐value2
key:
subkey
: subvalue
例項:firstname
: tian
lastname
: song
address
:streetaddr
: 中關村南大街5號
city
: 北京市
zipcode
:100081
prof
: ‐computer system
‐security
形式
特點比較
xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣
internet上的資訊互動與傳遞
json
資訊有型別,適合程式處理(js),較xml簡潔
移動應用雲端和節點的資訊通訊,無注釋
yarm
資訊無型別,文字資訊比例最高,可讀性好
各類系統的配置檔案,有注釋易讀
資訊提取的一般方法
<>.find_all(name, attrs, recursive, string, **kwargs)
擴充套件方法
方法說明
<>.find()
搜尋且只返回乙個結果,同.find_all()引數
<>.find_parents()
在先輩節點中搜尋,返回列表型別,同.find_all()引數
<>.find_parent()
在先輩節點中返回乙個結果,同.find()引數
<>.find_next_siblings()
在後續平行節點中搜尋,返回列表型別,同.find_all()引數
<>.find_next_sibling()
在後續平行節點中返回乙個結果,同.find()引數
<>.find_previous_siblings()
在前序平行節點中搜尋,返回列表型別,同.find_all()引數
<>.find_previous_sibling()
在前序平行節點中返回乙個結果,同.find()引數
簡單例項
import requests
from bs4 import beautifulsoup
deffunc
(url)
: header =
r = requests.get(url, headers=header)
r.raise_for_status(
) soup = beautifulsoup(r.text,
"html.parser"
)for tag in soup.find_all(
'a')
:print
(tag.string)
print
("------"
)for tag in soup.find_all(
true):
print
(tag.name)
if __name__ ==
"__main__"
: url =
""func(url)
二 文字提取 機器學習
英文提取步驟 準備句子 例項化countvectorizer 講分詞結果變成字串當做fit transform的輸入值 示例 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.t...
前端之路 HTML(二)文字與段落標記
chapter 3 文字與段落標記 標題字標記 屬性說明 對齊方式有三種選項top center right 此屬性在 html 4.01 中,h1 h6 元素的 align 屬性不被贊成使用,在 html 5 中,h1 h6 元素的 align 屬性不被支援。可選屬性 face size colo...
NLTK學習筆記 七 文字資訊提取
開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為了獲...