目前,自動文件摘要技術主要分為抽取式(extractive)和摘要式(又叫生成式)(abstractive)兩種。
抽取式摘要相對較為成熟。這種方法利用如 text rank 這樣的排序演算法,對處理後的文章語句進行排序。不過抽取式摘要在語義理解方面考慮較少,無法建立文字段落中的完整的語義資訊。
相較而言,生成式技術需要讓模型理解文章語義後總結出摘要,更類似人類的做法。不過這種技術需要使用機器學習技術,長期以來並不成熟。轉折點出現在 2014 年。這一年,bengio 等人發表**learning phrase representations using rnn encoder-decoder for statistical machine translation,正式引入了 sequence-to-sequence 模型。這一模型通過兩個迴圈神經網路,分別把輸入文字轉化成向量,再把向量轉成輸出序列。這種模型在**中主要用來完成機器翻譯任務,並且後來被應用在谷歌翻譯中,但後續在文摘生成任務中也產生了廣泛的應用。此後,這種利用深度學習的 sequence-to-sequence 方法不斷被改進,在一些標準的評測資料集(如 duc-2004)上,已經超過了傳統的抽取式方法。
例如,2016 年,facebook ai 實驗室(fair)的學者發表**a convolutional encoder model for neural machine translation,在編碼的時候用 cnn 取代 rnn,獲得不錯的效果。salesforce 的研究人員 2017 年發表的**a deep reinforced model for abstractive summarization中,使用了增強學習,在cnn/daily mail資料集上的 rouge-1 分數達到 41.16 分。同年,又是 fair 發表了**convolutional sequence to sequence learning,引入 attention 機制,不僅提高了評測分數,還極大地提公升了速度。
2016 年,來自 ibm 沃森的研究人員發表**abstractive text summarization using sequence-to-sequence rnns and beyond,和之前的**不同,這篇**把機器翻譯和文字摘要任務完全分開,專門針對文字摘要提出了更合適的模型,除此之外,文章還發布了兩個新的資料集。
中國也有許多學者在從事相關工作,例如北大的萬小軍老師。他和姚金戈的綜述《自動文摘研究進展與趨勢》把摘要技術框架總結成 4 個步驟:內容表示 → 權重計算 → 內容選擇 → 內容組織,並對每個步驟都作了介紹。
php 繪製文字 預覽文字
建立畫布,設定畫布大小 此時畫布是黑色背景 im imagecreatetruecolor 200,200 更改畫布的背景色 color imagecolorallocate im,222,207,87 imagefill im,0,0,color 設定字型的顏色 font color imagec...
用富文字解析html文字
html文字處理函式,輸入html文字內容 nsattributedstring attributedstringwithhtmlstring nsstring htmlstring 將html文字轉換為正常格式的文字 nsmutableattributedstring attstr nsmutab...
CSS 文字 文字屬性
css控制文字屬性 1 font size 18px 設定字型大小 2 color 093 設定字色 3 font family 宋體 設定字型 可以有多種字型,兩個字型之間有,分隔開,表示如果系統中有第乙個字型則顯示效果是第乙個字型,如果沒有則顯示的是第二個字型的效果,以此類推 4 line he...