數據挖掘是從大量數據中獲取有效、新穎、潛在有用且最終可理解的模式的非凡過程。數據挖掘的廣義觀點:數據挖掘是從數據庫、數據倉庫或其他信息庫中存儲的大量數據中“挖掘”出感興趣的知識的過程。數據挖掘,也稱為數據庫中的知識發現(KDD),也被壹些人視為數據庫中知識發現過程的基本步驟。知識發現的過程由以下步驟組成:(1)數據清洗,(2)數據集成,(3)數據選擇,(4)數據轉換,(5)數據挖掘,(6)模式評估和(7)知識表示。數據挖掘可以與用戶或知識庫交互。
並非所有的信息發現任務都被視為數據挖掘。例如,通過使用數據庫管理系統來查找單個記錄,或者通過因特網上的搜索引擎來查找特定的網頁,這是信息檢索領域中的壹項任務。雖然這些任務很重要,可能涉及復雜算法和數據結構的使用,但它們主要依靠傳統的計算機科學和技術以及數據的明顯特征來創建索引結構,從而有效地組織和檢索信息。然而,數據挖掘技術也被用來增強信息檢索系統的能力。
[編輯本段]數據挖掘的起源
需要是發明之母。近年來,數據挖掘引起了信息產業的極大關註。主要原因是有大量可以廣泛應用的數據,迫切需要將這些數據轉化為有用的信息和知識。所獲得的信息和知識可廣泛用於各種應用,包括商業管理、生產控制、市場分析、工程設計和科學探索。
數據挖掘使用了來自以下領域的思想:(1)來自統計學的抽樣、估計和假設檢驗;(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也很快接受了其他領域的想法,包括優化、進化計算、信息論、信號處理、可視化和信息檢索。其他壹些領域也起著重要的輔助作用。特別是,數據庫系統需要提供有效的存儲、索引和查詢處理支持。源自高性能(並行)計算的技術在處理海量數據集時通常很重要。分布式技術還可以幫助處理海量數據,在數據不能壹起處理的時候就更重要了。
【編輯本段】數據挖掘能做什麽?
1)數據挖掘可以做以下六種不同的事情(分析方法):
分類(分類)
估計(估算)
預測(預測)
關聯性分組或關聯規則。
聚類(群集)
描述和可視化。
挖掘復雜的數據類型(文本、Web、圖形和圖像、視頻、音頻等。)
2)數據挖掘分類
以上六種數據挖掘分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立壹個模型,這個模型描述了剩余的數據和壹個特定的變量(可以理解為數據庫中表的屬性,也就是列)。
間接數據挖掘
在目標中沒有選擇具體的變量,而是由模型來描述;而是在所有變量之間建立壹種關系。
分類、估值、預測屬於直接數據挖掘;後三種屬於間接數據挖掘。
3)各種分析方法的簡要介紹
分類(分類)
首先從數據中選取已經分類的訓練集,在這個訓練集上,利用數據挖掘分類技術建立分類模型,對未分類的數據進行分類。
示例:
a信用卡申請人被分為低、中、高風險。
B.將客戶分配給預定義的客戶群。
註意:類的數量是固定的和預定義的。
估計(估算)
估計類似於分類,只是分類描述的是離散變量的輸出,而估計處理的是連續值的輸出;分類的類別數是確定的,估值的金額是不確定的。
示例:
A.根據購買模式,估計壹個家庭的孩子數量
B.根據購買模式,估算壹個家庭的收入。
C.估計房地產的價值
壹般來說,估值可以作為分類的前壹步。給定壹些輸入數據,通過估計得到未知連續變量的值,然後根據預設的閾值,進行分類。比如家庭貸款業務,銀行用估值給每個客戶打分(0~1分)。然後根據門檻對貸款等級進行分類。
預測(預測)
通常預測是通過分類或估計來起作用的,即通過分類或估計得到壹個模型,用來預測未知變量。從這個意義上來說,沒有必要把預言分成壹個單獨的類別。預測的目的是預測未來的未知變量。這個預測是需要時間來驗證的,也就是需要壹定的時間才能知道預測的準確性。
關聯性分組或關聯規則。
決定壹起會發生什麽。
示例:
A.超市裏的顧客往往壹邊買A壹邊買B,也就是A = & gtb(關聯規則)
B.客戶買了A之後,每隔壹段時間就會買B(序列分析)。
聚類(群集)
聚合是對記錄進行分組,並將相似的記錄放入聚合中。聚集和分類的區別在於,聚集不依賴於預定義的類,也不需要訓練集。
示例:
A.某些特定癥狀的聚集可能預示著某種特定的疾病。
B.租不同類型VCD的顧客聚集在壹起,可能暗示著成員屬於不同的亞文化群體。
聚集通常是數據挖掘的第壹步。比如“什麽樣的促銷是對客戶最好的回應?”對於這類問題,可能最好先把整個客戶集合起來,把客戶分組到自己的集合中,然後再針對每個不同的集合回答問題。
描述和可視化(描述和可視化)
是數據挖掘結果的表示形式。
[編輯此段]數據挖掘中的關聯規則
1.什麽是關聯規則?
在描述壹些關於關聯規則的細節之前,我們先來看壹個有趣的故事:“尿布和啤酒”。
在壹家超市,有壹個有趣的現象:紙尿褲和啤酒壹起賣。但是這個奇怪的舉動增加了紙尿褲和啤酒的銷量。這不是笑話,而是發生在美國沃爾瑪連鎖超市的真實案例,壹直被商家津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統。為了準確地了解顧客在其商店的購買習慣,沃爾瑪對顧客的購物行為進行購物籃分析,並想知道顧客經常壹起購買什麽產品。沃爾瑪的數據倉庫集中了其門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。壹個意外的發現是:“用紙尿褲購買最多的產品是啤酒!”經過大量的實際調查分析,揭示了隱藏在“尿布和啤酒”背後的壹個美國人的行為模式:在美國,壹些年輕的父親下班後經常去超市買嬰兒尿布,其中30% ~ 40%的人還會給自己買壹些啤酒。造成這種現象的原因是,美國的妻子經常會告訴丈夫下班後給孩子買紙尿褲,丈夫買完紙尿褲會帶回自己喜歡的啤酒。
按照常規思維,紙尿褲和啤酒無關。如果不利用數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內部這種有價值的規律的。
數據關聯是數據庫中壹種重要的發現知識。如果兩個或多個變量的值之間存在某種規律性,則稱之為相關性。相關性可分為簡單相關性、時間序列相關性和因果相關性。關聯分析的目的是找出數據庫中隱藏的關聯網絡。有時候我們不知道數據庫中數據的關聯函數,即使知道也是不確定的,所以關聯分析產生的規則是可信的。關聯規則挖掘在大量數據中發現項目集之間有趣的關聯或相關關系。阿格拉瓦爾等於1993。首先,提出了挖掘客戶交易數據庫中項目集之間的關聯規則的問題。後來很多研究者對挖掘關聯規則做了大量的研究。他們的工作包括對原有算法進行優化,比如引入隨機抽樣和並行思想,提高算法挖掘規則的效率;推廣關聯規則的應用。關聯規則挖掘是數據挖掘中的壹個重要課題,近年來被業界廣泛研究。
2.關聯規則的挖掘過程、分類及相關算法。
2.1關聯規則挖掘流程
挖掘關聯規則的過程主要包括兩個階段:第壹階段,必須從數據集中找到所有的高頻項集,第二階段,從這些高頻項集中生成關聯規則。
在關聯規則挖掘的第壹階段,必須從原始數據集中找出所有的大項目集。高頻是指某個項目組相對於所有記錄的頻率必須達到壹定的水平。項目組出現的頻率稱為支持。以壹個包含兩個項目A和B的2-項集為例,通過公式(1)可以得到包含{A,B}的項目組的支持度。如果支持度大於或等於設定的最小支持度閾值,則{A,B}稱為高頻項目組。滿足最小支持度的k-項集稱為頻繁k-項集,壹般表示為大k或頻繁k,算法還從大k的項目組中生成大k+1,直到再也找不到高頻項目組。
關聯規則挖掘的第二個階段是生成關聯規則。從高頻項組生成關聯規則就是利用上壹步的高頻k項組生成規則。在最小置信度的條件閾值下,如果壹條規則得到的可信度滿足最小置信度,則這條規則稱為關聯規則。例如,高頻k項組{A,B}生成的規則AB的可靠度可以通過公式(2)得到。如果可靠度大於或等於最小可靠度,AB稱為關聯規則。
就Vuormaa的案例而言,利用關聯規則挖掘技術對交易數據庫中的記錄進行挖掘,首先要設置最小支持度和最小信任度兩個閾值,假設最小支持度min_support=5%,最小信任度min_confidence=70%。所以符合這個超市需求的關聯規則必須同時滿足以上兩個條件。如果通過挖掘過程找到的關聯規則“尿布,啤酒”滿足以下條件,則“尿布,啤酒”的關聯規則將被接受。支持(尿布,啤酒)可以用公式>:=5%,信心(尿布,啤酒)> =70%來描述。其中,支持(紙尿褲,啤酒) >:本應用示例中=5%的顯著性是所有交易記錄中至少有5%的交易記錄顯示同時購買了紙尿褲和啤酒。在這個應用示例中,置信度(尿布,啤酒)> =70%意味著包括尿布在內的所有交易記錄中至少有70%會同時購買啤酒。因此,如果消費者將來購買尿布,超市將能夠同時推薦該消費者購買啤酒。這種商品推薦行為基於“紙尿褲,啤酒”關聯規則,因為超市過去的交易記錄支持“大部分購買紙尿褲的交易都會同時購買啤酒”的消費行為。
從上面的介紹也可以看出,關聯規則挖掘通常更適合於記錄中的指標取離散值的情況。如果原始數據庫中的索引值是連續數據,那麽在挖掘關聯規則之前要對數據進行適當的離散化(實際上某個區間的值對應某個值)。數據的離散化是數據挖掘前的重要環節,離散化過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
根據不同的情況,關聯規則可以分類如下:
1.根據規則中處理變量的類別,關聯規則可以分為布爾型和數值型。
布爾關聯規則處理的值都是離散的、分類的,顯示了這些變量之間的關系。數值型關聯規則可以與多維關聯規則或多層關聯規則結合起來處理數值型字段並動態劃分,也可以直接處理原始數據。當然,數值型關聯規則也可以包含類別變量。例如:gender = " female " = & gt職業=“秘書”,這是壹個布爾型關聯規則;Gender = " female " = & gtAvg (income) =2300,涉及的收入是數值型,所以是數值型關聯規則。
2.根據規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層關聯規則中,所有變量都沒有考慮到實際數據有許多不同的層次;在多層關聯規則中,數據的多層性質得到了充分的考慮。例如:IBM desktop = & gt索尼打印機是對詳細數據的單層關聯規則;Desktop = & gt索尼打印機是較高層次和細節層次之間的多層關聯規則。
3.根據規則所涉及的數據的維度,關聯規則可以分為壹維的和多維的。
在壹維關聯規則中,我們只涉及壹個維度的數據,比如用戶購買的物品;在多維關聯規則中,要處理的數據會涉及多個維度。換句話說,壹維關聯規則處理單個屬性中的壹些關系;多維關聯規則處理各種屬性之間的某些關系。例如:啤酒= & gt紙尿褲,這個規則只涉及用戶購買的物品;Gender = " female " = & gt職業=“秘書”,這個規則涉及兩個領域的信息,是壹個二維的關聯規則。
2.3關聯規則挖掘算法
1.Apriori算法:利用候選項集發現頻繁項集。
Apriori算法是挖掘布爾關聯規則頻繁項集最有影響力的算法。其核心是壹種基於兩階段頻率集思想的遞歸算法。該關聯規則在分類上屬於單維、單層、布爾型關聯規則。這裏,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱為頻率集。
算法的基本思想是:首先找出所有的頻率集,並且這些項集的頻率至少與預定義的最小支持度相同。然後,從頻率集生成強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後利用步驟1找到的頻率集生成期望規則,生成所有只包含集合項的規則,其中每個規則的右半部分只有壹項,這裏采用了中間規則的定義。壹旦生成這些規則,只有那些大於用戶給定的最小可信度的規則被留下。為了生成所有頻率集,使用遞歸方法。
可能存在大量的候選集,可能需要反復掃描數據庫,這是Apriori算法的兩大缺點。
2.基於劃分的算法
Savasere等人設計了壹種基於劃分的算法。該算法首先在邏輯上將數據庫劃分為若幹個不相交的塊,每次單獨考慮壹個塊並為其生成所有的頻率集,然後將生成的頻率集合並生成所有可能的頻率集,最後計算這些項目集的支持度。這裏,選擇每個塊的大小,使得每個塊可以放入主存儲器中,並且在每個階段只需要掃描壹次。每個可能的頻率集是至少壹個塊中的頻率集,這壹事實保證了算法的正確性。該算法可以是高度並行的,並且可以將每個塊分配給壹個處理器來生成頻率集。在生成頻率集的每個周期之後,處理器相互通信以生成全局候選k項集。通常這裏的通信過程是算法執行時間的主要瓶頸;另壹方面,每個獨立處理器生成頻率集的時間也是壹個瓶頸。
3.FP-樹頻率集算法
針對Apriori算法的固有缺陷,J. Han等人提出了壹種不生成候選挖掘頻繁項集的方法:FP- tree頻率集算法。采取分而治之的策略。在第壹次掃描之後,數據庫中的頻率集被壓縮到壹個頻繁模式樹(FP-tree)中,而相關的信息仍然被保留。然後將FP-tree分成若幹個條件基,每個條件基與壹個長度為1的頻率集相關,然後分別挖掘這些條件基。當原始數據量較大時,可以結合分區方法將FP-tree放入主存。實驗表明,FP-growth對不同長度的規則有很好的適應性,其效率比Apriori算法有很大提高。
3.國內外該領域的應用
3.1國內外關聯規則挖掘技術的應用
目前,關聯規則挖掘技術已經廣泛應用於西方金融企業,並能成功預測銀行客戶的需求。壹旦獲得這些信息,銀行就可以改進他們的營銷。現在,銀行每天都在開發與客戶溝通的新方式。各銀行將客戶可能感興趣的本行產品信息捆綁在自己的ATM機上,供用戶了解。如果數據庫顯示壹個信用額度很高的客戶更改了地址,那麽很有可能這個客戶最近買了壹個更大的房子,因此有可能需要更高的信用額度,新的高端信用卡,或者住房改善貸款。這些產品可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢時,數據庫可以有效地幫助電話銷售代表。銷售代表的電腦屏幕可以顯示客戶的特征,同時可以顯示客戶會對什麽產品感興趣。
同時,壹些知名的電子商務網站也受益於強大的關聯規則挖掘。這些電子購物網站利用關聯規則中的規則進行挖掘,然後設置用戶打算壹起購買的捆綁包。也有壹些購物網站利用它們設置相應的交叉銷售,即購買某種產品的顧客會看到另壹種相關產品的廣告。
然而,目前在中國,“數據海量,信息匱乏”是商業銀行在數據集中後普遍面臨的尷尬。目前在金融行業實現的大部分數據庫只能實現數據錄入、查詢、統計等底層功能,而無法在數據中找到各種有用的信息,比如分析這些數據,發現它們的數據模式和特征,進而發現某個客戶、消費群體或組織的金融和商業利益,觀察金融市場的變化趨勢。可以說,國內對關聯規則挖掘技術的研究和應用還不是很廣泛和深入。
3.2近年來對關聯規則挖掘技術的壹些研究
由於許多應用問題往往比超市采購問題更復雜,大量的研究從不同的角度對關聯規則進行了擴展,將更多的因素融入到關聯規則挖掘方法中,從而豐富了關聯規則的應用領域,拓寬了支持管理決策的範圍。比如考慮屬性之間的層次關系,時態關系,多表挖掘等等。近年來,對關聯規則的研究主要集中在兩個方面,即擴大經典關聯規則能夠解決問題的範圍和提高經典關聯規則挖掘算法的效率和興趣。
我是百度。可以參考這個網站。
祝您好運