統計學是壹門年輕的科學。人類的統計實踐是隨著計數活動而產生的,所以統計發展的歷史可以追溯到古代原始社會,也就是五千多年前。但能使人類的統計實踐上升到理論總結的高度,即開始成為系統的科學統計學,只有短短300多年的歷史,卻是近代的事情。統計發展的概況大致可以分為三種形式:經典的記錄統計、現代的描述統計和現代的推斷統計。
進入20世紀以來,隨著科學技術的飛速發展,社會發生了巨大的變化,統計學也進入了壹個快速發展的時期。壹些科學家甚至稱我們的時代為“統計時代”。顯然,統計科學在20世紀的發展及其未來被賦予了劃時代的意義。
16世紀?意大利學者gerolamo cardano(1501 . 9 . 24-1576 . 9 . 21)開始研究骰子等賭博中的壹些簡單問題。他是古典概率論的創始人。
1646法國數學家布萊士·帕斯卡(1623 . 6 . 19-1662 . 8 . 19)和法國數學家皮耶·德·費瑪(1601 . 8 . 17-1665 . 1.12)。他們壹起解決了壹個上流社會的賭徒和業余哲學家送來的問題。他想不通為什麽在某個組合中擲出三個骰子總是輸錢。在解決這個問題的過程中,建立了概率論和組合論的基礎,得到了壹系列解決概率論問題的方法,奠定了現代概率論的基礎。
1713年,瑞士數學家雅各布·伯努利(1654.12.27-1705 . 8 . 16)出版了他的遺書《猜想》,在書中他提出了概率論中的第壹個。他是使概率論成為數學分支的創始人。後來,俄羅斯數學家和力學家切比雪夫(пант?тий Льво?виччебышёв,1821 . 5 . 26-1894.12.8)。
1733年,德國數學家、天文學家德·莫伊弗爾(1667 . 5 . 26-1754.11.27)研究了伯努利大數定律中的情況,他推導出了遞進公式(也叫斯特林公式)。後來,這個結果被皮埃爾·西蒙·拉普拉斯推廣到壹般情況。後人稱之為“德莫維爾-拉普拉斯中心極限定理”,這是概率論史上的第二個極限定理,也是第壹個中心極限定理。
1763年,英國數學統計學家托馬斯·貝葉斯(1702-1761)發表了貝葉斯統計理論。同年,理查德·普萊斯整理出版了貝葉斯結果,提出了“貝葉斯公式”。貝葉斯是對概率論和數理統計的早期發展有重要影響的兩位人物之壹(另壹位是布萊士·帕斯卡)。
1809德國數學家約翰·卡爾·弗裏德裏希·高?,1777 . 4 . 30-1855 . 2 . 23)發表了《天體繞日運動理論》,其中有壹節是關於“數據組合”的。在這壹節中,他論述了誤差分布的理論,並在此過程中獨立推導出“正態分布”,推廣了正態分布的應用。同年,高斯提出了“最小二乘法”。
1812年,法國著名天文學家、數學家皮埃爾-西蒙·德·拉·普萊斯侯爵(1749.3.23-1827.3.5)發表了《概率分析論》。在這本書中,他首次明確定義了概率的經典定義(通常稱為“經典概率”),並引入了概率論中更為有力的分析工具,如“差分方程”和“生成函數”,從而實現了概率論從簡單的組合運算向解析方法的過渡,將概率論推向了壹個新的發展階段。
1821年,德國數學家高斯提出了正態分布的“極大似然估計”。
20世紀20年代芬蘭數學家jarl Waldemar Linde Berg(1876 . 8 . 4-1932.12.12)和法國數學家保羅·皮埃爾·萊維(1886-1971)證明了樣本均值的極限分布是正態分布,稱為“Lindeberg-Lévy中心極限定理”。
1837年,法國數學家西米恩·丹尼斯·泊松(1781 . 6 . 21-1840 . 4 . 25)首先提出了“泊松分布”。這種分布在早些時候由伯努利家族描述過。
1863年,阿貝首次提出χ?分布後來被Hermert和現代統計學的創始人之壹karl pearson分別在1875和1900推導出來。
1875?英國科學家、探險家弗朗西斯·高爾頓(1822 . 2 . 16-1911.17)在朋友的幫助下,在香豌豆上做了壹個實驗。通過分析獲得的數據,他終於。
1888?弗朗西斯·高爾頓提出了“相關指數”的概念,並在此基礎上發展了壹種用圖形來估計相關系數的方法。同年,他在壹篇論文中給出了第壹個關於“相關系數”的官方數字,從定量的角度描述了兩個變量之間的相關程度。
19世紀下半葉,俄羅斯彼得堡學派引入了“隨機變量”。這標誌著概率論從古典概率時期向現代概率時期過渡。
1895?統計學家卡爾·皮爾遜(1857 . 3 . 27-1936 . 4 . 27)首先提出了“偏度”。
1900年,德國數學家戴維·希爾伯特(1862-1943)提出建立概率的公理化定義,以解決適用於所有隨機現象的概率的最壹般定義。
1900年,英國數學家、生物統計學家卡爾·皮爾遜(1857 . 3 . 27-1936 . 4 . 27)提出了替換原理,由此原理得到的估計量就成了“矩估計”。同年,他引入了著名的χ?擬合優度測試”。卡爾·皮爾遜是20世紀統計學的偉大創始人,被稱為20世紀統計學之父。他的工作在描述統計學發展到推斷統計學的歷史階段中起到了承上啟下的作用,為統計學的快速發展奠定了堅實的基礎。
1901年?卡爾·皮爾遜(Karl pearson)提出了“主成分分析”(多元統計分析的經典方法),但它只針對非隨機變量。1933被美國公認的統計學、經濟學和數學大師哈羅德·霍特林(1895-1973)推廣到隨機變量。
1905?統計學家卡爾·皮爾遜(1857 . 3 . 27-1936 . 4 . 27)首次提出峰度。(S:不知道大家有沒有註意到其中的小聰明。Pearson在10年前首先提出偏度,然後提出矩估計,χ?經過擬合優度檢驗和主成分分析,提出了峰值狀態。是什麽啟發皮爾森想到了偏態?值得深思。)
20世紀初,卡爾·皮爾遜(K. karl pearson)提出了“假設檢驗”,後經費希爾完善,最終由尼曼和皮爾遜(E.Pearson)提出了相對完整的假設檢驗理論
1908年,英國統計學家戈塞特在《生物統計學》雜誌上以“學生”為筆名發表了壹篇論文,這篇論文讓他在統計學史上名聲大噪:均值的概然誤差。本文提出了“t分布”。t分布的發現在統計史上具有劃時代的意義,它打破了正態分布壹統天下的局面,開啟了小樣本統計推斷的新時代。後來Fisher註意到了自己證明中的破綻,在1922中給出了這個問題的完整證明,並編制了T分布的分位數表。
1909 -1920丹麥數學家和電氣工程師A.K.Erlang用概率論的方法研究了電話交談,首創了“排隊論”。
1920為了更準確地估計隨機序列的發展變化規律,從20世紀20年代開始,學術界就開始運用數理統計原理對時間序列進行分析。研究的重點從總結表面現象轉向分析序列值的內在關系,從而開辟了壹門應用統計學學科——“時間序列分析”。
1922年,R.A.Fisher正式提出“充分統計”,其思想源於他與天文學家愛丁頓關於估計的標準差的爭論。同年,他在高斯1821年的基礎上再次提出了“極大似然估計”的思想並證明了它的壹些性質,使極大似然法得到了廣泛的應用。
1924年,貝爾實驗室的沃爾特·a·沃特·A·休哈特博士在給上級的備忘錄中提出了使用“控制圖”的建議。“質量控制圖”是壹種應用統計原理控制產品質量的圖形方法。他是統計質量控制之父(SQC)。
1924?英國統計學家、遺傳學家、現代統計科學創始人羅納德·艾爾默·費希爾(1890-1962)提出了“f分布”,並以其姓氏的第壹個字母命名。後來,他提出了“方差分析”(ANOVA)。
羅納德·艾爾默·費希爾(1890-1962)補充了卡爾·K·皮爾遜(karl K.Pearson)介紹的擬合優度檢驗?。也就是在實際問題中,有時候壹切都取決於k個未知參數,然後皮爾遜定理又成立了。Fisher證明了在相同條件下,可以先用MLE方法估計k位置參數,然後再計算估計值。此時,相似統計量逐漸服從卡方分布,但自由度為r-k-1。
1928年,Neyman和E.Pearson提出了“似然比檢驗”,這是壹種被廣泛使用的檢驗方法,它在假設檢驗中的地位就像是MLE在點估計中的地位。
1929蘇聯數學家亞歷山大·雅科夫列維奇·欽欽(алекса?ндр Я?ковлевич Хи?нчин,1894 . 7 . 19-1959 . 11.18)在相同分布條件下推廣了切比雪夫大數定律,稱為“辛”。
在1929中,Baehrens提出了如果沒有信息,查找的精確置信區間,M和N都不太大。這是歷史上著名的“伯倫斯-費雪問題”。
1933年,蘇聯數學家安德雷·柯爾莫哥洛夫(1903 . 4 . 25-1987 . 10.20)在測度論的基礎上建立了概率論的嚴格公理體系。使之像微積分壹樣成為壹個嚴格的數學體系,同時這個體系包含了經典意義上和統計意義上的定義,所以既滿足了數學本身的需要,又適應了自然科學乃至工程技術的要求。
1933?美國數理統計學家、經濟學家哈羅德·霍特林(1895—1973)最早提出“主成分分析”。這是壹種降維的思想,壹種在損失很少信息的前提下,通過正交旋轉將多個指標轉化為若幹個綜合指標的多元統計分析方法。
1934年,美國統計學家j .奈曼(1894–1981)創立了嚴格的區間估計理論——“置信區間”。置信系數是該理論中最基本的概念。根據壹定的準確度和精度要求,通過從總體中抽取的樣本構造壹個合適的區間,作為總體的分布參數(或參數的函數)真值範圍的估計。
印度著名統計學家馬哈拉諾比斯(1893-1972)提出了馬哈拉諾比斯距離。
1938 H. Wold在他的博士論文《統計時間序列分析中的研究》中提出了著名的“Wold分解定理”,即對於任何離散平穩過程{},都可以分解為兩個不相關的平穩序列之和,其中壹個是確定性的,另壹個是隨機性的。這個定理是現代時間序列分析理論的靈魂。Cramer在1961中證明了這種分解思想也可以用於非平穩序列。克萊姆分解定理表明,任何序列的波動都可以看作是同時受到確定性和隨機性的影響。
1945年,威爾科克森(F . Wilcoxin)建立了“秩統計量”。秩和檢驗,也稱為序列和檢驗,是壹種非參數檢驗。它不依賴於總體分布的具體形式,應用時不考慮所研究對象的分布情況,也不考慮是否已知,因此具有實用性。
在1950中,E.L. Lehmann和H. Scheff提出了“完全統計量”的概念,給出了尋找可估函數(即參數函數無偏估計的存在性)的UMVUE的壹個充分完整的統壹度量方法,即“Lehmann-Scheff定理”。
在1955中,Stein證明了當維數p大於2時,正態均值向量的最小二乘估計不可容納,即可以發現另壹種估計在某種意義上壹致優於最小二乘估計。
Lindley等人在1960中指出,當樣本量足夠大時,可以趨向於1,接近於0,即價值檢驗和貝葉斯檢驗得到的結論是相反的,所以也叫Lindley悖論。
在1965中,W.F.Massy根據多元統計分析中的主成分分析(PCA)提出了“主成分回歸”。
1977?哈佛大學數學家A.P.Dempster等人提出了用最大似然估計隱變量概率模型參數的“EM算法”。
1995新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman用S語言(S語言是AT&編寫的;t貝爾實驗室(T Bell Laboratories)開發了壹種用於數據探索、統計分析和繪圖的解釋性語言,並開發了壹種新的系統。由於這兩位科學家的首字母都是R,所以系統軟件被命名為“R”。
劍橋大學:卡爾·皮爾遜、費希爾、弗朗西斯·高爾頓、馬哈拉諾比斯
愛丁堡大學:托馬斯·貝葉斯
巴黎理工大學:莫恩·丹尼斯·泊松,利維
卡昂大學:皮埃爾·西蒙·拉普拉斯
哥尼斯堡大學(現為康德波羅的海聯邦大學):戴維·希爾伯特。
哥廷根大學:約翰·卡爾·弗裏德裏希·高斯(自18)
布倫瑞克技術大學:約翰·卡爾·弗裏德裏希·高斯(自14)
巴塞爾大學:雅各布·伯努利。
莫斯科大學:安德雷·柯爾莫哥洛夫、切比雪夫、亞歷山大·雅科夫列維奇·欽欽
加州大學柏克萊分校:沃特·A·休哈特
華盛頓大學:哈羅德·霍特林
1,卡爾·皮爾遜是珂賽特的老師。珂賽特從1906到1907去卡爾皮爾森學習統計學,重點是對少量數據的統計分析。
2.高爾頓是卡爾·K·皮爾遜的老師。
參考資料:
[1]百度百科
[2]現代統計學發展的壹條主線——卡爾·皮爾遜的生平、思想和成就。