近年來,由於各種形式(如社交網絡、醫療記錄、醫療保險數據、新聞發布等)的文本數據量驚人,文本挖掘(TM)引起了人們的廣泛關註。).IDC在壹份報告中預測,到2020年,數據量將增加到400億TB (4 * (10 22)字節),即從2010 [50]開始增加了50倍。
文本數據是典型的非結構化信息,是大多數情況下可以生成的最簡單的數據形式之壹。人類可以很容易地處理和感知非結構化文本,但機器顯然很難理解。不用說,這些文本壹定是信息和知識的寶貴來源。因此,迫切需要設計壹種能夠在各種應用中有效處理非結構化文本的方法。目前,主要的文本挖掘方法有: