1.術語文檔矩陣(ATermDocumentMatrix):是壹個需要進壹步分析的結果集。例如,購買了產品的客戶A的購買頻率如何,與未購買產品客戶B有何區別。我們需要對術語進行排序,以便基於它們的信號強度建模。這些術語的存在和頻率可以用數字顯示在建模數據集,並直接並入最佳預測模型。這種“語義評分卡”是傳統評分卡輔以非結構化信息(按屬性將數據進行分類,並分配權重)。可進行復雜的數據運算,以確定哪些屬於信號最強、哪些特定術語應進行組合以從原文中識別出較大的概念。
2.命名實體識別(NamedEntityExtraction,NEE):基於自然語言處理,借鑒了計算機科學、人工智能和語言學等學科,可以確定哪些部分可能代表如人、地點、組織、職稱、產品、貨幣金額、百分比、日期和事件等實體。NEE算法為每個標識的實體生成壹個分數,該分數表明識別正確的概率。我們可以視情況設定壹個閾值,來達到我們的目的。
3.文檔主題生成模型(LatentDirichletAllocation,LDA):主要用於監測客戶行為變化,它可以發現數據的相似性以便進行分類和分組。LDA使用統計算法從非結構化數據抽取主題、概念和其他含義,它不理解語法或者人類語言,而只是尋找模式。任何數量、類型非結構化的、半結構化和結構化源數據都可以應用LDA監測模式來進行分析。
這種技術通常用於營銷分析,針對提供存款、取款和購買行為的客戶提取原型。如:銀行可借助分析發現壹些消費者雖然時常出差,但是忠誠度很高,這些客戶往往會與客服代表溝通由於出差而錯過還款的事由,並避免滯納金。這樣的分析可以幫助銀行了解如何重視客戶、降低客戶流失率、提高客戶忠誠度。再如:LDA分析還可以快速、方便地應用和更新消費者相關信息,可以判斷消費者的最新行為是否與他們的歷史行為壹致,如果消費者有不同尋常的事情發生,或者行為與他們現有的文件不壹致,系統可以發出警示。