在實施知識挖掘之前,必須了解知識狀態。
以及Intranet、Extranet、VPNVirtualPrivatenetwork的出現和應用,將整個世界連接成壹個小小的地球村,人們可以跨越時空,在線交換數據和信息,協同工作。這樣,展現在人們面前的就不局限於本部門、本單位、本行業的龐大數據庫,而是信息海洋。當數據量極度增加時,如果沒有有效的方法通過計算機和信息技術提取有用的信息和知識,人們在信息海洋面前是束手無策的。大型企業數據庫中只有7%的數據得到了很好的利用。這樣,與“數據過剩”和“信息爆炸”相比,人們感受到的是“信息貧乏”和“datainjail”,JohnNaisbett驚呼“Wearedrowningininformation,butstarvingforknowledge”。面對層出不窮的數據,人們需要壹種去粗存精的技術,從數據汪洋中去偽存真。從數據庫中發現知識(KDD)及其核心技術應運而生。
所謂知識挖掘,就是從數據庫中提取隱藏的、以前未知的、潛在適用的信息的過程。知識挖掘是KDD的核心部分。知識挖掘與傳統分析工具的區別在於,知識挖掘使用基於發現的方法,並使用模式匹配等算法來確定數據之間的重要聯系。