from urllib import request
url = ''
html=request.urlopen(url)
html=html.read()
html
#匯入url**裡面的html內容
可以看出很多雜亂的html**和網頁內容混合在一起,需要我們進行清洗。
import nltk
from bs4 import beautifulsoup
import re
soup = beautifulsoup(html,'lxml')
clean=soup.get_text()
tokens = [tok for tok in clean.split() ]
print(tokens[0:100])
直接用nltk這個現在不行了,要借助bs4來進行處理。
可以看出很多無用的標點符號和詞語,我們用停用詞表進行去除。
經過去停用詞後結果還是令人滿意的,好了,簡單的嘗試一下用nltk,還是不錯的。
NLP學習筆記 nlp入門介紹
為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...
系統學習NLP(三) NLP入門綜述
從這個月開始,進入nlp方向了,因此,系統了看了一遍 自然語言處理綜論 對nlp做了點系統性的了解,後面抽時間乙個乙個業務或者方向進行實現學習。這裡主要是入門的認識,因此,大多數不涉及每個業務應用的最佳實現,比如基本沒有深度學習層面的 因為那本書只總結了2009年之前的 不過有了這個基礎,每個業務應...
NLP入門 分詞與embedding
直接安裝pkuseg等好多次都失敗了,於是換清華源。pip install pkuseg i用清華源安裝北大的東西感覺好尷尬啊。哈哈哈,不過速度相當快啊。後來一搜,woc,這個庫和北大沒關係,有人蹭熱點,我特麼解除安裝了,還是用jieba了,但是咋embedding呢?能不能用tf.keras的em...