根據不同的分類標準,文本摘要可以分為多種類型。根據數據是否有標記,可以分為有監督的和無監督的。
根據輸入類型,文本摘要可以分為單文檔摘要和多文檔摘要。
優點:在語法和句法上有壹定的保證;
缺點:內容選擇錯誤,壹致性差,靈活性差。
抽取法從原文中選取關鍵詞或關鍵句子形成摘要。這種方法在語法和句法上的錯誤率很低,保證了壹定的效果。
傳統方法:使用圖方法和聚類完成無監督摘要。主要包括Lead-3、文本排名和聚類。
目前流行的方法是將問題建模為兩個任務:序列標註和句子排序。
優點:它允許摘要包含新的單詞或短語,具有很高的靈活性。
缺點:生成過程往往缺乏關鍵信息的控制和引導。
目前,序列對序列(Seq2Seq)模型被廣泛應用於生成摘要的任務中,並取得了壹些成果。
考慮到基於Seq2Seq的模型往往對長文本的生成不友好,我們可以用真實摘要來指導文本摘要的生成。核心思想是相似句子的摘要也有壹定的相似性,這些摘要作為軟模板,作為外部知識來輔助。
任務大致可以分為兩步:首先選擇重要的內容,然後重寫內容。
生成神經網絡模型的基本結構主要由編碼器和解碼器組成,兩者都由神經網絡實現。
貪婪搜索算法
經典文本抽象基線模型:Seq2Seq的文本抽象模型結合註意機制和指針生成網絡模型。