python網頁自動摘要和關鍵詞提取

2021-07-11 17:01:35 字數 1182 閱讀 1711

最近準備用django寫乙個cms系統,把單位的網頁遷移過去,在網上找了乙個部落格系統,但是不太滿意,摘要和tags都需要自己輸入,目標就是把他們實現自動化。

之前搞爬蟲接觸過類似的庫,readability,goose等都可以實現文字摘要,jieba具有提取tags的功能。

goose主要作用是根據**提取文字和標題。主要用的庫有urllib2,beautifulsoup;有些網頁用goose提取不到正文,只能獲得標題,因此用在內容也上比較好,目錄頁、主頁效果不太好。

用法如下:

from goose import goose

from goose.text import stopwordschinese

g = goose()

article = g.extract(url=url)

url = ''

print article.titleprint article.cleaned_text[:]

goose其實不怎麼滿足需求,簡單點的還有html2text,或者用htmlparse,甚至簡單粗暴的正規表示式。

# -*- coding: utf-8 -*-

from htmlparser import htmlparser

class mlstripper(htmlparser):

def __init__(self):

self.reset()

self.fed =

def handle_data(self, d):

def get_data(self):

return ''.join(self.fed)

def strip_tags(html):

s = mlstripper()

s.feed(html)

return s.get_data()

import jieba

import jieba.analyse

def extract_tags(content,topk):

content = content.strip()

tags=jieba.analyse.extract_tags(content, topk=topk)

return ','.join(tags)

中文豐富網頁摘要和結構化標記將改寫網頁前端布局

認真看過 豐富網頁摘要 rdfhnkiquo 讓你的 與眾不同這篇文章的人對於豐富的網頁摘要並不陌生,就不在程式設計客棧這裡囉嗦了。由於豐富的網頁摘要顯示只是在谷歌英文介面展示,這個功能之前也沒有應用到中文網頁搜尋上來,因此國內的眾多 在前端設計時把微格式考慮進去,加上國內ie6的巨大份額,不禁讓人...

Python 自動重新整理網頁

新聞 文章好不好,瀏覽量比較重要。瀏覽量大,boss看了開心。因為單位網路剛建立,不是很複雜,每次增加乙個pv,瀏覽量加1。所以我就寫了乙個簡單的python指令碼,代替f5的工作。coding utf 8 import time from selenium import webdriver def...

基於python語言,自動生成文章摘要(中文)

廢話少說,直接上 coding utf 8 import jieba,copy,re,codecs from collections import counter summary pyhanlp.hanlp.extractsummary text,3 print summary print join...