自動文字摘要是自然語言處理中乙個比較難的任務。新聞的摘要要求編輯能夠從新聞事件中提取出最關鍵的資訊點,然後重新組織語言進行描述;一般**的摘要要求作者先表述清楚問題,對前人工作中不完善的地方進行總結,然後用更凝練的語言描述自己的工作;綜述性質的**要求作者通讀大量相關領域的工作,用最概括性的語言將每份工作的貢獻、創新點寫出來,並對每份工作的優缺點進行比較。本質上,文字摘要是一種資訊過濾,輸出的文字比輸入的文字少很多,但卻包含了主要的資訊,有點類似主成分分析(pca)。從某種意義上,文字摘要與推薦系統的功能類似,都是為了提取出使用者感興趣的內容,只是使用的方法有很大不同。
自動摘要技術應用最廣的領域在新聞,由於新聞資訊的過載,也由於很多新聞**為了譁眾取寵,故意將標題起的特別吸引人眼球,但卻名不副實,人們迫切地希望有乙個工具可以幫助自己用最短的時間了解最多的最有用的新聞。搜尋引擎也是應用之一,基於查詢(query)的自動文字摘要技術會幫助使用者盡快找到感興趣的內容。另外,隨著智慧型裝置的普及,自動摘要技術的使用也會為新的資訊瀏覽與人機互動方式帶來變革。
按照文件數量,文字摘要可以分為單文件摘要與多文件摘要,前者是後者的基礎,但後者不只是前者結果的簡單疊加。前者經常應用於新聞資訊的過濾,而後者,在搜尋引擎中有很大的潛力,難度也隨之加大。
按照實現方式,可以分為兩大類,提取式(extractive)和摘要式(abstractive)。
以上是提取式的自動摘要演算法,其輸出結果是不同段落中選擇出來的
top k
的句子,因此摘要的連貫性、一致性很難保證。
摘要式的方法是一種生成式的方法,它要求系統理解文字所表達的意思,然後用可讀性強的人類語言將其簡練地總結出來。這裡包含幾個難點:
理解文字。與人類閱讀文字類似,需要明白文字表達的意思,涉及到的話題等。
可讀性強。可讀性是指生成的摘要能夠連貫與銜接。
簡練總結。即在理解文字的基礎上,用盡可能簡潔的文字表達最核心的部分。
上述難點即使對於人類也不是一件容易的事情,對於計算機更是。雖然在一些領域中,由於計算機強大的計算能力,人工智慧能夠領先於人類,但在更多的領域,例如機器翻譯、文字摘要,ai離人類的水平還很遙遠。
近幾年隨著深度學習(deep learning)的發展,研究者們開始嘗試將一些最新的研究成果應用於自動文字摘要,尤其是機器翻譯(machine translation)中的encoder-decoder框架和attention機制。從這個思路可以將文字摘要問題轉化為乙個sequence-2-sequence問題,由此產生了基於rnn的attention model,基於cnn的abs(attention-based summarization)等。在一定程度上,它們實現了摘要式的自動文字摘要,但還是處於研究初期,效果不算太好。
關於評價方法,人工評價自不用提,自動評價目前公認的只有lin在2023年提出的rouge(recall-oriented understudy for gisting evaluation)指標,基本思想是將待審的摘要和參考摘要的n元組共現統計量作為評價作為評價依據,然後通過一系列標準進行打分,包括:rough-n、rough-l、rough-w、rough-s和rough-su幾個型別。通俗來說是通過一些定量化的指標來描述待審摘要和參考文摘之間的相似性,例如共同出現次數、最長相同文字長度、帶權最長相同文字長度等。
文字自動摘要發展歷程
看了近70年文字自動摘要研究綜述,簡單記錄一下文字自動摘要的發展歷程和方法。文字摘要通常是指從單個或多個文件中產生一段文字,該文字傳達了原始文字的主要資訊。文字自動摘要是20世紀50年代出現的一種用計算機完成的文字摘要技術,幫助人們從資訊海洋中解放,提高資訊的使用效率。自動摘要研究是從抽取式摘要開始...
AI實戰 文字自動摘要簡述
分為無監督和有監督。大部分都是基於的seq2seq框架 neural headline generation with minimum risk training attention model attention based summarization abs abs recurrent atte...
bert做文字摘要 BERT文字摘要
簡介 bert是經過預先訓練的transformer模型,已在多個nlp任務上取得了突破性的效能。最近,我遇到了bertsum,這是愛丁堡的liu的 本文擴充套件了bert模型,以在文字摘要上達到最新的分數。在此部落格中,我將解釋本文以及如何使用此模型進行工作。提取摘要 類似於使用螢光筆。我們從原始...