當前位置:吉日网官网 - 傳統美德 - 閱讀文章“不等時間序列的滑動窗口STS距離聚類算法”

閱讀文章“不等時間序列的滑動窗口STS距離聚類算法”

傳統時間序列聚類的缺點:

1)時間序列聚類的研究壹般采用等長劃分,這樣會丟失重要的特征點,對聚類結果產生負面影響。

2)不能通過使用時間序列測量來精確地測量相似性。

以下埃博拉出血熱和衛生部數值差不多,但教育部和衛生部形態更相似。如果用傳統的歐幾裏德距離來衡量形狀,可能不太合適。

不等時間序列的滑動窗口STS聚類算法:

1)標準分數z_score預處理用於消除時間序列觀測值的量級差異的影響。

2)改變了相似度計算方法,基於滑動窗口計算不等長序列的距離。

3)基於k-means聚類算法的中心曲線計算方法。

時間序列數據因其對趨勢信息的直觀呈現,被廣泛應用於社交網絡、互聯網搜索和新聞媒體數據分析。例如,谷歌通過搜索流感相關信息的時間序列來預測流感爆發的趨勢。根據壹個話題的熱度時間序列數據趨勢的規律性,通過聚類來區分不同類型的時間序列數據。同壹聚類中的Twitter話題具有相同或相似的發展趨勢,然後用於預測話題的發展趨勢。

時間序列聚類算法可以分為兩類。

1)基於原始數據的時間序列聚類算法。

2)基於特征的時間序列聚類算法。

基於特征的時間序列聚類算法是指根據原始數據從時間序列中提取形態特征(極值點位置、分段斜率)、結構特征(均值、方差等統計特征)和模型特征(模型的預測值),從而根據這些特征值進行聚類。這種方法的優點是解決了不等時間序列的聚類問題,缺點是原始數據被弱化,聚類的形狀趨勢信息往往比較粗糙。

3.怎麽

壹、距離測量公式

STS距離計算為累積時間序列之間每個時間間隔的斜率差的平方,公式為

如上圖所示,g1和g2的歐氏距離值更接近g2和g3的歐氏距離值。g1和g2的STS距離大於g2和g3。在形狀距離方面,STS距離計算方法表現更好,可以在壹定程度上解決歐氏距離度量時間序列的局部特征信息確實受觀測值大小差異影響的問題,但仍然無法度量不等長時間序列的距離。

基於滑動窗口的STS距離公式。

如上圖所示,在計算不同長度的時間序列的S和R之間的距離時,先對時間序列S進行連續移位,然後找到S和R之間距離最近的字段,就像上圖中虛線之間的位置壹樣。此時S和R之間的距離最近,這個最近的距離作為S和R之間的距離。

二、預處理過程

Z-score標準分數用觀測數據和觀測數據平均值之間的距離代替原始觀測值。z-score處理後的數據平均值為0,標準差為1。標準差的作用是統壹量綱,去除數值大小差異的影響。

摘要

提出了壹種基於形狀距離的不等長時間序列聚類方法。我們能學到的是

1)z-score統壹了維度,消除了數值數量級差異,聚類效果更好。

2)通過計算X和Y時間序列的STS距離,可以將其中壹個時間序列進行移位,找到最小值作為STS距離值,消除了同壹時間序列起點不同的影響。

  • 上一篇:藏族傳統裝飾造型介紹
  • 下一篇:進口水果上的標簽是幹什麽用的?它們是如何被標記的?每個數字是什麽意思?
  • copyright 2024吉日网官网