分類是壹種基本的數據分析方法。根據其特點,數據對象可以分為不同的部分和類型,進壹步分析可以進壹步探索事物的本質。
返回
回歸是壹種應用廣泛的統計分析方法,通過指定因變量和自變量來確定變量之間的因果關系,然後建立回歸模型,根據實測數據求解模型的各個參數,進而評價回歸模型是否能擬合實測數據。如果能很好的擬合,就可以根據自變量做進壹步的預測。
3.使聚集
聚類是壹種分類方法,將數據按照其內在屬性劃分成壹些聚集類,每個聚集類中的元素盡可能具有相同的特征,不同聚集類的特征盡可能不同。與分類分析不同,分類的類別是未知的,因此聚類分析也稱為無監督或無監督學習。
4.相似性匹配
相似度匹配是通過壹定的方法計算兩個數據的相似度,相似度通常用百分比來衡量。相似性匹配算法被用於許多不同的計算場景,例如數據清洗、用戶輸入糾錯、推薦統計、抄襲檢測系統、自動評分系統、網頁搜索和DNA序列匹配。
5.頻繁項目集
頻繁項集是指事例中的頻繁項集,比如啤酒和尿布。Apriori算法是壹種挖掘關聯規則的頻繁項集算法。其核心思想是通過候選集生成和場景向下封閉檢測兩個階段來挖掘頻繁項集,現已廣泛應用於商業、網絡安全等領域。
6.統計說明
統計描述是根據數據的特點,用壹定的統計指標和指標體系來表示數據反饋的信息,是數據分析的基礎處理工作。主要方法包括:平均指數和變異指標的計算,數據分布模式的圖示等。