生成式文字摘要分析實踐

2021-08-02 04:19:48 字數 1595 閱讀 3008

第一類方法是傳統摘要方法,常見應用於新聞摘要,但是該方法擴充套件性,通用性很有限,難以適應多變的文字內容。

seq2seq模型示意圖:

由於近些年深度學習的發展很熱,在2023年到2023年期間,學術界出現了大量基於深度學習(主要是seq2seq模型)做文字摘要的**,**中描述的生成式摘要,可以得到比較好的結果。而且google的tensorflow機器學習框架,也在業界越來越流行。本次分析測試「生成式」文字摘要模型,主要目的是,驗證分析,目前業界最新的深度學習技術,在文字摘要領域,具體的應用效果,能否達到商用要求,能否具體應用於某個領域。同時,實踐分析tensorflow框架,測試該框架的實用效果,執行效率等。

初步結論:

1、rnn模型的訓練效率很低,經google的textsum模型作者確認,

他們的模型,使用了10臺伺服器,每台4個gpu,約400萬英文訓練資料,訓練了一周,訓練步數是a few million steps,才得到一些相對比較好的結果。

我用一台x86伺服器,240多萬的中文微博資料,訓練30天,訓練步數是82800 steps,還是遠遠不夠的。

2、seq2seq可以生成抽象的句子,但是,生成指定文章的摘要是很困難的。我的分析是,該模型**於機器翻譯領域,機器翻譯領域,a語言與b語言中詞有對應關係的語料是很多的,只要詞有對應關係,大多數時候是可以通過詞的對應來完成翻譯的,所以通過大量資料學習,學習上下文語言環境,可以得到一些編碼對應關係,來完成機器翻譯。 但是文字摘要,文章與摘要的對應關係是獨特一對一的關係,雖然總體資料量大,但是獨特對應關係的訓練資料是不多的,摘要不僅要看詞是否準確,還要看多個詞組成的句子,是否能表達正確的語義,而且還要和原文的語義對應,這是非常難的。所以,要讓計算機,學習到文章的表達含義,encode,再decode到摘要,還是很困難的事情。(類似的,生成式問答qa模型,也有同樣的問題。)

3、從我測試的已有結果看,seq2seq生成的摘要,並不穩定,有一些看起來比較好的結果,但是很多是不好的結果。因為該模型很複雜,訓練時間很長,調引數是很困難的事情。而且,由於此類模型的可解釋性比較差,針對具體應用場景和訓練資料的調優也很困難。而且文字摘要的質量,客觀地自動評價是比較困難的,很多需要主觀評價,所以自動篩選優質的摘要也是很困難的。所以,「生成式」摘要在商用場景下會面臨很多困難。

4、google的tensorflow框架,目前流行程度很高,相關資源很多。不過,該框架基於函式式程式設計模式,調測比較困難,同時該框架定義的tensor,graph, session機制比較靈活,而且有大量封裝函式,使用起來很靈活多變,同時調測難度也比較大。 對於機器學習,特別是深度學習的各種模型,有大量封裝好的函式,開發時,模型的定義和使用比較簡單,不用開發者處理模型開發的細節問題。該框架還在發展中,發展比較快,0.8版本到0.9版本就發現有介面變更。

5、tensorflow框架可以基於分布式,gpu執行。本次測試rnn模型,在cpu的伺服器上執行,非常慢,所以,配置gpu的伺服器很有必要。測試執行tensorflow時,簡單估計,執行效率不高,沒有做深入的對比分析,對於效能分析網上有一些文章可以參考。

tensorflow的流行程度很高,可用資源很多,但是開發調測門檻比較高,執行效率不高,目前可以基於該框架做簡單模型應用。

常用linux 文字分析命令摘要一

有時我們需要對日誌等資訊進行統計,如某些資料的的平均值,方差,變異係數等。less a.txt awk end sort rn k 1 t awk f else end 另外一種更加快速簡單的統計方法。less a.txt awk end 檢視所有jar檔案是否包含某個類。ls jar awk 統計...

軟體架構最佳實踐和案例分析 筆記摘要

1.架構不是一維的概念,要根據受眾情況從多個方面解構。經典的檢視包括4 1 2 2.各種檢視的實現方式 描繪方式 是沒有定規的,但有些具體的實現細節可以採用標準的,如uml。3.邏輯檢視可以用動畫,開發檢視中可以沒有uml,而是一些框架元件的壘砌和他們之間的關係 如weblogic,spring等 ...

Char RNN原理介紹以及文字生成實踐

char rnn,字元級迴圈神經網路,出自於andrej karpathy寫的the unreasonable effectiveness of recurrent neural networks。眾所周知,rnn非常擅長處理序列問題。序列資料前後有很強的關聯性,而rnn通過每個單元權重與偏置的共享...