描述性統計是指用制表和分類、圖形和匯總數據來描述數據的集中趨勢、離散趨勢、偏度和峰度。
1,缺失值填充:常用方法:消元法、均值法、最小近鄰法、比率回歸法、決策樹法。
2.正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前有必要進行正態性檢驗。常用方法:非參數K-數量檢驗、P-P圖、Q-Q圖、W檢驗、動態差分法。
第二,假設檢驗
1,參數測試
參數檢驗是對壹些主要參數(如均值、百分比、方差、相關系數等)進行檢驗。)在已知總體分布的條件下(壹個要求總體服從正態分布)。
1)U測試?使用條件:當樣本含量n較大時,樣本值符合正態分布。
2)T檢驗條件:當樣本含量n較小時,樣本值符合正態分布。
答?單樣本t檢驗:推斷該樣本的總體均值μ是否不同於已知的總體均值μ0(通常是理論值或標準值);
b?配對樣本的t檢驗:當總體均值未知且兩個樣本可以配對時,同壹對中的兩個在各種可能影響治療效果的條件下相似;
c兩個獨立樣本t檢驗:不可能找到兩個各方面都非常相似的樣本進行配對比較。
2、非參數檢驗
非參數檢驗不考慮總體分布是否已知,往往不是針對總體參數,而是針對總體的壹些壹元假設(如總體分布的位置是否相同,總體分布是否正態)。
應用:順序數據,其分布通常是未知的。
雖然a是連續數據,但總體分布模式未知或非正態;
雖然B體分布正態,數據連續,但樣本量極小,如10以下;
主要方法有卡方檢驗、秩和檢驗、二項式檢驗、遊程檢驗、K-數量檢驗等。
第三,可靠性分析
檢查測量的可靠性,如問卷的真實性。
分類:
1.外部信度:量表在不同時間測量時的壹致性,用常用方法重測信度。
2.內部可靠性;是否在每個量表中測量單個概念,同時兩個量表的內部項目有多壹致,常用分半信度。
四、列聯表分析
用於分析離散變量或固定變量之間是否存在相關性。
二維表可以進行卡方檢驗,三維表可以進行門特爾-漢澤爾層次分析。
列聯表分析還包括成對計數資料的卡方檢驗和行列都是順序變量的相關性檢驗。
動詞 (verb的縮寫)相關分析
研究現象之間是否存在壹定的依賴關系,探索具有依賴關系的具體現象的相關方向和程度。
1,單相關:兩個因素之間的相關稱為單相關,即研究中只涉及壹個自變量和壹個因變量;
2.復相關:三個或三個以上因素之間的相關稱為復相關,即研究中涉及兩個或兩個以上自變量和因變量;
3.偏相關:當壹個現象與許多現象相關時,在假設其他變量不變的情況下,兩個變量之間的相關稱為偏相關。
六、方差分析
使用條件:每個樣本必須是獨立的隨機樣本;每個樣本都來自正態分布的總體;人口方差相等。
分類
1.單因素方差分析:當壹個實驗只有壹個影響因素,或者有多個影響因素時,只分析其中壹個因素與響應變量的關系。
2.多因素有交互作用方差分析:1 .實驗中的影響因素很多,分析了影響因素與響應變量之間的關系,也考慮了影響因素之間的關系。
3.多因素非交互方差分析:分析多個影響因素與響應變量之間的關系,但影響因素之間沒有影響關系或影響關系被忽略。
4.協方差分叉:傳統的方差分析有明顯的缺點,不能控制分析中的壹些隨機因素,影響分叉結果的準確性。協方差分析主要是在排除協變量的影響後,對校正後的主效應的方差進行分析,是壹種線性回歸與方差分析相結合的分析方法。
七、回歸分析
分類:
1,壹元線性回歸分析:自變量X只有壹個與因變量Y相關,X和Y都必須是連續變量,因變量Y或其殘差必須服從正態分布。
2.多次線性回歸分析
使用條件:分析多個自變量與因變量Y的關系,X和Y都必須是連續變量,因變量Y或其殘差必須服從正態分布。
1)變分篩選法:選擇最優回歸方程的變分篩選法有全橫向法(CP法)、逐步回歸法、向前引入法和向後消去法。
2)橫向診斷法:
殘差檢驗:觀察值和估計值之間的差異很難服從正態分布。
b強影響點判斷:搜索方法壹般分為標準誤法和馬氏距離法。
C ***線性診斷:
診斷方法:容差、方差展開因子法(也叫展開系數VIF)、特征根判斷法、條件指標CI、方差比。
處理方法:增加樣本量或選擇另壹種回歸如主成分回歸和嶺回歸。
3.邏輯回歸分析
線性回歸模型要求因變量呈連續正態分布,自變量與因變量呈線性關系,而Logistic回歸模型不要求因變量的分布,壹般在因變量離散時使用。
分類:
Logistic回歸模型有條件和無條件兩種,條件Logistic回歸模型和無條件Logistic回歸模型的區別在於參數估計中是否使用了條件概率。
4.其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
八、聚類分析
將樣本個體或指標變量按其特征進行分類,以找到合理的統計量來衡量事物的相似性。
1,房產分類:
q-聚類分析:對樣本進行分類,也稱為樣本聚類。用距離系數作為統計量來衡量相似性,如歐氏距離、極端距離、絕對距離等。
r-聚類分析:對指標進行分類,也稱指標聚類分析,以相似系數為統計量,衡量相似度、相關系數、列聯系數等。
2、方法分類:
1)系統聚類法:適用於小樣本的樣本聚類或指數聚類。壹般采用系統聚類的方法對指標進行聚類,也稱為層次聚類。
2)逐步聚類法:適用於大樣本的樣本聚類。
3)其他聚類方法:兩步聚類、K-means聚類等。
九、判別分析
1.判別分析:根據壹批分類明確的樣本建立判別函數,盡量減少誤判的情況,進而判斷給定的新樣本來自哪個人群。
2.與聚類分析的區別
1)聚類分析可以對樣本和指標進行分類;判別分析只能用於樣本
2)聚類分析事先不知道事物的類別,不知道如何分類;而判別分析必須事先知道事物的類別,也要知道如何把事物分成幾類。
3)聚類分析不需要分類的歷史數據,直接對樣本進行分類;判別分析需要對歷史數據進行分類,建立判別函數,然後才能對樣本進行分類。
3、分類:
1)Fisher判別分析法:
分類是基於距離的,即把樣本歸入哪個類的距離最短,適合兩種判別;
分類是基於概率的,即樣本被歸入哪個類別的概率最大,就適合哪個類別
適合多階級歧視。
2)貝葉斯判別分析:
BAYES判別分析比FISHER判別分析更加完善和先進。既能解決多種判別分析,又能考慮數據的分布,所以壹般用的比較多。
X.主成分分析
將壹組相互關聯的指標轉化為壹組新的獨立指標變量,用少數幾個新的指標變量綜合反映原多指標變量所包含的主要信息。
XI。要素分析
壹種多元統計分析方法,旨在發現隱藏在多元數據中,無法直接觀察到,但影響或支配可測變量的潛在因素,估計潛在因素對可測變量的影響程度以及潛在因素之間的相關性。
與主成分分析相比:
相同:都能起到了解多個原始變量內部結構關系的作用。
區別:主成分分析側重於綜合原始的適應信息,而因子分析側重於解釋原始變量之間的關系,是壹種比主成分分析更深入的多元統計方法。
使用:
1)減少分析變量的數量。
2)通過檢測變量之間相關性對原始變量進行分類。
十二。時間序列分析
動態數據處理的統計方法研究隨機數據序列所遵循的統計規律,以解決實際問題;時間序列通常由四個要素組成:趨勢、季節變化、周期波動和不規則波動。
主要方法:移動平均濾波和指數平滑、ARIMA橫向型、定量ARIMA橫向型、ARIMAX模型、自回歸橫向型和ARCH族模型。
十三。生存分析
壹種統計分析方法,用於研究生存時間的分布規律以及生存時間與相關原因的關系。
1,包括內容:
1)描述的是生存過程,即研究生存時間的分布規律。
2)生存過程比較,即研究兩組或多組生存時間的分布規律並進行比較。
3)分析危險因素,即研究危險因素對生存過程的影響。
4)建立數學模型,即用壹個數學公式表達生存時間與相關危險因素之間的依賴關系。
2.方法:
1)統計描述:包括生存時間分位數、中位生存時間、平均值和生存函數的估計,以及判斷生存時間的圖示方法,不對分析後的數據做出任何統計推斷結論。
2)非參數檢驗:檢驗分組變量各水平對應的生存曲線是否壹致,對生存時間的分布沒有要求,檢驗危險因素對生存時間的影響。
壹種產品極限法(PL法)
b生命表法(LT法)
3)半參數水平回歸分析:在壹定的假設條件下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析。
4)參數模型回歸分析:當已知生存時間服從某壹特定參數交叉型時,擬合相應的參數模型,更準確地分析和確定變量間的變化規律。
十四。典範相關分析
相關分析壹般分析兩個變量之間的關系,而典型相關分析是分析兩組變量(如三個學業能力指標和五個學校成績指標)之間相關性的統計分析方法。
典型相關分析的基本思想類似於主成分分析,將壹組變量與另壹組變量之間的多重線性相關的研究轉化為幾對綜合變量之間的簡單線性相關的研究,這幾對變量所包含的線性相關信息幾乎涵蓋了原始變量組所包含的全部對應信息。
十五。R0C分析
R0C曲線是根據壹系列不同的二元分類方法(分界值或閾值)繪制的曲線,縱坐標為真陽性率(敏感性),橫坐標為假陽性率(1-特異性)。
使用:
1和R0C的曲線可以很容易地顯示出在任何邊界值下識別疾病的能力。
使用
2.選擇最佳診斷限值。R0C曲線越靠近左上角,測試的準確度越高。
3.比較兩種或兩種以上不同診斷試驗識別疾病的能力,R0C曲線下面積反映了診斷系統的準確性。
十六、其他分析方法
多重響應分析、距離分叉、項目分叉、對應分叉、決策樹分析、神經網絡、系統方程、蒙特卡羅模擬等。