文字自動摘要發展歷程

2021-09-12 09:44:20 字數 1782 閱讀 7308

看了近70年文字自動摘要研究綜述,簡單記錄一下文字自動摘要的發展歷程和方法。

文字摘要通常是指從單個或多個文件中產生一段文字,該文字傳達了原始文字的主要資訊。

文字自動摘要是20世紀50年代出現的一種用計算機完成的文字摘要技術,幫助人們從資訊海洋中解放,提高資訊的使用效率。

自動摘要研究是從抽取式摘要開始的。

1.抽取式自動摘要

根據詞頻確定詞權重:首先對所有詞出現的頻率進行統計;根據經驗確定乙個頻率區間,區間內為重要詞,區間外的詞是高頻詞和低頻詞視為噪音;對於文章中包含重要詞和不超過四個非重要詞的句子,被選中為候選句,句子的重要性得分按照公式(1)計算:

其中,sign代表括號內的重要詞數,n代表括號中的總詞數。根據對候選句計算重要性得分高低進行排序,選出若干最高得分的句子作為摘要。

後來又加入了句子位置作為特徵,在段落中85%的主題句位於段首,7%的主題句處於段尾。詞頻、句子位置、線索詞、標題詞這四個特徵是早期抽取式自動摘要使用的主要特徵。

2.利用外部資源的方法

隨著自動摘要研究的深入,研究人員不再滿足於簡單統計文字本身的特徵,開始借助外部資源來輔助確定文件中的詞權重、獲取詞間語義關係等,從而識別重要句子。常用外部資源有背景語料、同義詞典、知識庫等,較為著名的方法有tf-idf、詞彙鏈等方法。

tf-idf的基本思想是:在乙個語料庫中,乙個詞的重要性於詞頻正相關,於包含它的文件數負相關。思路是:根據背景語料庫統計各個詞的tf-idf值,作為詞的重要性得分,然後計算文章各句的的詞的tf-idf和,作為句子的重要性得分,抽取最重要的句子作為摘要。

詞彙鏈,不再以單個詞作為分析單元,而是利用wordnet、詞性標註工具、維基百科等對詞義進行分析,把原文中於某個主題相關的詞集合起來,構成詞彙鏈。選出強詞彙鏈,為每乙個強詞彙鏈抽取乙個句子構成摘要。

3.基於統計機器學習的方法

20世紀90年代,有監督的機器學習方法在自然語言處理領域得到廣泛使用,該方法通過對人工標註語料進行訓練,可以獲得句子的文字特徵與句子重要性的關係模型,利用此模型即可對未標註句子的重要性進行自動檢測,生成摘要。在這類方法中,抽取式自動摘要問題被轉化成乙個二分類問題。乙個句子要麼是摘要句,要麼不是。首先人工將重要句子標註出來,然後提取這些句子的特徵,學習演算法通過統計分析學習,得到特徵與句子重要性的關係,進而得到合適的分類器。向分類器中丟入待分類句子,可得到重要句子得分,選出重要句子。

較為廣泛使用的演算法有:樸素貝葉斯演算法、決策樹演算法、最大墒演算法、隱馬爾可夫演算法。 

4.基於語言網路的方法

語言是乙個複雜網路,構成網路的節點可以是詞、概念、句子等文字單元,節點之間以句法、語義、語音、拓撲等產生關係。

5.基於深度學習的方法分為深度框架和(抽取式)和深度學習(生成式)兩種。

5.1 深度框架:輸入層為詞頻向量、輸出層為摘要、隱層是若干個受限的玻耳茲曼機,多個隱層可以使得底層特徵可用於推斷出更優的高層特徵,而高層特徵的有效性又可通過底層驗證。分為三個階段:概念抽取/重建驗證/摘要生成。

5.2深度學習:「序列到序列的方法」 自動摘要問題也被視為從原文本到摘要文字的對映。自動摘要模組 tensorflow——textsum

posted @

2018-04-15 17:13

qamra 閱讀(

...)

編輯收藏

自動文字摘要學習

自動文字摘要是自然語言處理中乙個比較難的任務。新聞的摘要要求編輯能夠從新聞事件中提取出最關鍵的資訊點,然後重新組織語言進行描述 一般 的摘要要求作者先表述清楚問題,對前人工作中不完善的地方進行總結,然後用更凝練的語言描述自己的工作 綜述性質的 要求作者通讀大量相關領域的工作,用最概括性的語言將每份工...

自動摘要技術發展

自動摘要技術 發展歷史 20世紀50年代,自動摘要 和機器翻譯 被提出 對給定文字提取包含最重要資訊的描述 摘要。乙個代表性研究由h.p.luhn提出,用程式對機器可讀形式的完整文字進行分析,用詞頻及其分布的統計資訊來計算重要性度量的方式。1969年,harold p edmundson 描述了乙個...

AI實戰 文字自動摘要簡述

分為無監督和有監督。大部分都是基於的seq2seq框架 neural headline generation with minimum risk training attention model attention based summarization abs abs recurrent atte...