goose安裝
pip install goose-extractor
或
pip3 install goose
github:
簡單例項
:python3
python 3.7.6 (default, feb 16 2020, 17:48:02)
[clang 8.0.0 (clang-800.0.42.1)
] on darwin
formore information.
>>
> from goose3 import goose
>>
> from goose3.text import stopwordschinese
>>
> g = goose(
)>>
> url =
''>>
> print(article.title)
the serenity prayer_lu_zhao的部落格-csdn部落格
>>
> print(article.cleaned_text)
上帝,請賜予我寧靜,去接受我所不能改變的;
請賜予我勇氣,去改變我所能改變的;
並請賜予我智慧型,去辨別什麼可以改變,什麼不能。
用心生活每一天;用靈魂享受每個時刻;承受磨難,因為它是通向安寧的必經之路。
接受它原本的樣子,而不是我所期盼的樣子;
這樣,這一生我就有理由得到快樂,並在天堂與您一起得到極樂。
>>
>
只有中文。。。沒有英文了??因為選了中文就只有中文了嗎??
英文嘗試如下:
:python3
python 3.7.6 (default, feb 16 2020, 17:48:02)
[clang 8.0.0 (clang-800.0.42.1)
] on darwin
formore information.
>>
> from goose3 import goose
>>
> from goose3.text import stopwordschinese
>>
> g=goose(
)>>
> url =
''>>
> article = g.extract(url=url)
>>
> print(article.title)
the serenity prayer_lu_zhao的部落格-csdn部落格
>>
> print(article.cleaned_text)
>>
>
原文也有英文的呀。。
測試的原文:
淺識網頁正文提取演算法
淺識網頁正文提取演算法 因為要到一家網際網路公司參加自然語言處理實習生面試,對於崗位要求中提到的工作內容 網頁正文內容提取 的相關知識進行了一下突擊。重點看了一下網頁正文提取所涉及到的各種演算法,網上的內容很多,我只是看了其中一小部分,對各類演算法做了乙個簡單的了解,不敢說對其做乙個綜述,只是以乙個...
網頁內容爬取 如何提取正文內容
建立乙個新 一開始沒有內容,通常需要抓取其他人的網頁內容,一般的操作步驟如下 為每個網頁寫特徵分析這個還是太耗費開發的時間,我的思路是這樣的。python的beautifulsoup包大家都知道吧,import beautifulsoup soup beautifulsoup.beautifulso...
C 第五次作業 開源專案「網頁正文提取」的理解
執行結果截圖 提取 結果截圖 結果截圖 提取結果截圖 理解 正文提取的一種方法是利用html的dom樹來完成對網頁的正文資訊的分析和提取。dom document object model 是由w3c組織發布的一種訪問和操作html文件的規範。dom將html文件表示為樹形物件集合的形式,乙個dom...