文本自動摘要生成

根據輸出類型，文本自動摘要可以分為抽取式摘要和生成式摘要。

根據不同的分類標準，文本摘要可以分為多種類型。根據數據是否有標記，可以分為有監督的和無監督的。

根據輸入類型，文本摘要可以分為單文檔摘要和多文檔摘要。

優點:在語法和句法上有壹定的保證；

缺點:內容選擇錯誤，壹致性差，靈活性差。

抽取法從原文中選取關鍵詞或關鍵句子形成摘要。這種方法在語法和句法上的錯誤率很低，保證了壹定的效果。

傳統方法:使用圖方法和聚類完成無監督摘要。主要包括Lead-3、文本排名和聚類。

目前流行的方法是將問題建模為兩個任務:序列標註和句子排序。

優點:它允許摘要包含新的單詞或短語，具有很高的靈活性。

缺點:生成過程往往缺乏關鍵信息的控制和引導。

目前，序列對序列(Seq2Seq)模型被廣泛應用於生成摘要的任務中，並取得了壹些成果。

考慮到基於Seq2Seq的模型往往對長文本的生成不友好，我們可以用真實摘要來指導文本摘要的生成。核心思想是相似句子的摘要也有壹定的相似性，這些摘要作為軟模板，作為外部知識來輔助。

任務大致可以分為兩步:首先選擇重要的內容，然後重寫內容。

生成神經網絡模型的基本結構主要由編碼器和解碼器組成，兩者都由神經網絡實現。

貪婪搜索算法

經典文本抽象基線模型:Seq2Seq的文本抽象模型結合註意機制和指針生成網絡模型。