文字摘要技術調研

2021-09-25 04:16:09 字數 593 閱讀 7954

文字摘要主要有兩種實現方式:抽取式(extractive)和生成式(abstractive)。

1.傳統方法

1.1  lead-3

直接抽取文章的前面3句作為摘要。

1.2 聚類

將文章中的句子視為乙個點,按照聚類的方式完成摘要。對句子進行編碼,得到句子的向量表示,再使用k均值聚類和mean-shift聚類進行句子聚類,得到n個類別。最後從每個類別中,選擇距離質心最近的句子,得到n個句子,作為最終的摘要。

1.3 textrank

textrank仿照pagerank,將句子作為結點,使用句子間相似度,構造無向有權邊,使用邊上的權值迭代更新結點值,最終選取n個得分最高的節點作為摘要。

2.機器學習方法

利用機器學習演算法對統計特徵進行建模,如樸素貝葉斯、svm、隱馬爾可夫演算法等。主要特徵有:主題詞特徵、大寫詞特徵、線索短語特徵、句子長度特徵、段落特徵等。

3.基於深度學習的方法

3.1 序列標註方式

抽取式摘要可以建模為序列標註任務進行處理,其核心想法是:為原文中的每乙個句子打乙個二分類標籤(0 或 1),0 代表該句不屬於摘要,1 代表該句屬於摘要。最終摘要由所有標籤為 1 的句子構成。

bert做文字摘要 BERT文字摘要

簡介 bert是經過預先訓練的transformer模型,已在多個nlp任務上取得了突破性的效能。最近,我遇到了bertsum,這是愛丁堡的liu的 本文擴充套件了bert模型,以在文字摘要上達到最新的分數。在此部落格中,我將解釋本文以及如何使用此模型進行工作。提取摘要 類似於使用螢光筆。我們從原始...

文件摘要技術

一 基於特徵的方法 可以考慮如下特徵來進行文件摘要的生成,包括 文章標題 比如文章標題中出現的詞具有較高的權重 段落的位置 比如文章的首段和尾段具有較高的權重 段落的特定句子 比如段落的首句和第二句具有較高的權重 句式的型別 比如陳述句具有較高的權重,含有大標點的句子具有較高的權中等 文章中頻繁出現...

自動文字摘要學習

自動文字摘要是自然語言處理中乙個比較難的任務。新聞的摘要要求編輯能夠從新聞事件中提取出最關鍵的資訊點,然後重新組織語言進行描述 一般 的摘要要求作者先表述清楚問題,對前人工作中不完善的地方進行總結,然後用更凝練的語言描述自己的工作 綜述性質的 要求作者通讀大量相關領域的工作,用最概括性的語言將每份工...