2018年1月24日 星期三

數學基礎 | 數理統計





在人工智慧的研究中,數理統計同樣不可或缺,基礎的統計理論有助於對機器學習的算法和數據挖掘的結果做出解釋,只有做出合理的解讀,數據的價值才能夠體現,數理統計根據觀察或實驗得到的數據來研究隨機現象,並對研究對象的客觀規律做出合理的估計和判斷

雖然數理統計以概率論為理論基礎,但兩者之間存在方法上的本質區別,概率論作用的前提是隨機變量的分布已知,根據已知的分布來分析隨機變量的特徵與規律,數理統計的研究對象則是未知分布的隨機變量,研究方法是對隨機變量進行獨立重復的觀察,根據得到的觀察結果對原始分布做出推斷

用一句不嚴謹但直觀的話講:數理統計可以看成是逆向的概率論


用買彩票打個比方,概率論解決的是根據已知的搖獎規律判斷一注號碼中獎的可能性,數理統計解決的則是根據之前多次中獎 / 不中獎的號碼記錄以一定的精確性推測搖獎的規律,雖然這種嘗試往往無功而返

在數理統計中,可用的資源是有限的數據集合,這個有限數據集被稱為樣本,同樣觀察對象所有的可能取值被稱為總體,數理統計的任務就是根據樣本推斷總體的數字特徵,樣本通常由對總體進行多次獨立的重復觀測而得到,這保證了不同的樣本值之間相互獨立,並且都與總體具有相同的分布

在統計推斷中,應用的往往不是樣本本身,而是被稱為統計量的樣本的函數。統計量本身是一個隨機變量,是用來進行統計推斷的工具。樣本均值和樣本方差是兩個最重要的統計量:

樣本均值:



樣本方差:

 


統計推斷的基本問題可以分為兩大類:參數估計和假設檢驗

參數估計

參數估計是通過隨機抽取的樣本來估計總體分布的方法,又可以進一步劃分為點估計和區間估計,在已知總體分布函數形式,但未知其一個或者多個參數時,借助於總體的一個樣本來估計未知參數的取值就是參數的點估計,點估計的核心在於構造合適的統計量 θ^,並用這個統計量的觀察值作為未知參數 θ 的近似值,點估計的具體方法包括矩估計法和最大似然估計法。

矩表示的是隨機變量的分布特徵,k 階矩的定義為隨機變量的 k 次方的均值,即 E(Xk),矩估計法的思想在於用樣本的 kk 階矩估計總體的 k 階矩,其理論依據在於樣本矩的函數幾乎處處收斂於總體矩的相應函數,這意味著當樣本的容量足夠大時,幾乎每次都可以根據樣本參數得到相應總體參數的近似值

相對於基於大數定律的矩估計法,最大似然估計法源於頻率學派看待概率的方式,對最大似然估計的直觀理解是:既然抽樣得到的是已有的樣本值,就可以認為取到這一組樣本值的概率較大,因而在估計參數 θ 的時候就需要讓已有樣本值出現的可能性最大

在最大似然估計中,似然函數被定義為樣本觀測值出現的概率,確定未知參數的准則是讓似然函數的取值最大化,也就是微積分中求解函數最大值的問題,由於不同的樣本值之間相互獨立,因而似然函數可以寫成若干概率質量函數 / 概率密度函數相乘的形式,並進一步轉化為對數方程求解

矩估計法和最大似然估計法代表了兩種推斷總體參數的思路,但對於同一個參數,用不同的估計方法求出的估計量很可能存在差異,這就引出了如何對估計量進行評價的問題。在實際應用中,估計量的評價通常要考慮以下三個基本標準

1. 無偏性:估計量的數學期望等於未知參數的真實值
2. 有效性:無偏估計量的方差盡可能小
3. 一致性:當樣本容量趨近於無窮時,估計量依概率收斂於未知參數的真實值

以上三個要求構成了對點估計量的整體判定標準,
無偏性意味著給定樣本值時,根據估計量得到的估計值可能比真實值更大,也可能更小,但如果保持估計量的構造不變,而是進行多次重新抽樣,每次都用新的樣本計算估計值,那麼這些估計值與未知參數真實值的偏差在平均意義上等於 0,這意味著不存在系統誤差

雖然估計值與真實值之間的偏差不可避免,但個體意義上的偏差越小意味著估計的性能越精確,有效性度量的正是估計量和真實值之間的偏離程度,而偏離程度不僅僅取決於估計量的構造方式,還取決於樣本容量的大小,一致性考慮的就是樣本容量的影響,一致性表示的是隨著樣本容量的增大,估計量的值將穩定在未知參數的真實值上,不具備一致性的估計量永遠無法將未知參數估計得足夠精確,因而是不可取的

對估計量的判別標準涉及了估計誤差的影響,這是和估計值同樣重要的參量。在估計未知參數 θ 的過程中,除了求出估計量,還需要估計出一個區間,並且確定這個區間包含 θ 真實值的可信程度,在數理統計中,這個區間被稱為置信區間,這種估計方式則被稱為區間估計

置信區間可以用如下的方式直觀解釋:對總體反復抽樣多次,每次得到容量相同的樣本,則根據每一組樣本值都可以確定出一個置信區間 (θ,θ),其上界和下界是樣本的兩個統計量,分別代表了置信上限和置信下限。

每個置信區間都存在兩種可能性:包含 θ 的真實值或不包含 θθ 的真實值。如果對所有置信區間中包含 θ 真實值的比率進行統計,得到的比值就是置信水平。因此,區間估計相當於在點估計的基礎上進一步提供了取值範圍和誤差界限,分別對應著置信區間和置信水平。

假設檢驗
參數估計的對象是總體的某個參數,假設檢驗的對象則是關於總體的某個論斷,即關於總體的假設。假設檢驗中的假設包含原假設 H0 和備擇假設 H1,檢驗的過程就是根據樣本在 H0 和 H1 之間選擇一個接受的過程

理想的情況是假設 H0(H1) 為真並且這個假設被接受,但由於檢驗是基於樣本做出的,錯誤的決策終歸會出現

其形式可以分為兩種
第一類錯誤對應假設 H0 為真但是被拒絕的情況,也就是「棄真」類型的錯誤
第二類錯誤對應假設 H0 不真但是被接受的情況,也就是「取偽」類型的錯誤

假設檢驗的思維方式建立在全稱命題只能被證偽不能被證實的基礎上,要證明原假設 H0 為真,更容易的方法是證明備擇假設 H1 為假,因為只要能夠舉出一個反例就夠了,但在假設檢驗中,反例並非絕對意義上對假設的違背,而是以小概率事件的形式出現

在數理統計中,發生概率小於 1% 的事件被稱作小概率事件,在單次實驗中被認為是不可能發生的,如果在一次觀測得到的樣本中出現了小概率事件,那麼就有理由認為這不是真正意義上的小概率事件,原始的假設也就此被推翻。如果是備擇假設被推翻,就意味著接受原假設,反之,如果是原假設被推翻,則意味著拒絕原假設

從數理統計的角度看,監督學習算法的任務就是在假設空間中搜索能夠針對特定問題做出良好預測的假設,學習器通過對測試數據集的學習得到具有普適性的模型,這個模型適用於不屬於測試集的新樣本的能力被稱為泛化能力,顯然,泛化能力越強,學習就越好

假設檢驗的作用就在於根據學習器在測試集上的性能推斷其泛化能力的強弱,並確定所得結論的精確程度,可以進一步推廣為比較不同學習器的性能,由於度量學習器性能的常用指標是錯誤率,假設檢驗中的假設就是對學習器的泛化錯誤率的推斷,推斷的依據就是在測試數據集上的測試錯誤率

除了推斷之外,對泛化性能的解釋也是機器學習算法分析的重要內容,泛化誤差的構成可以分為三部分:偏差、方差和噪聲

偏差表示算法預測值和真實結果之間的偏離程度,刻畫的是模型的欠擬合特性
方差表示數據的擾動對預測性能的影響,刻畫的是模型的過擬合特性
噪聲表示在當前學習任務上能夠達到的最小泛化誤差,刻畫的是任務本身的難度

對任何實際的模型來說,偏差和方差都難以實現同時優化,反映出欠擬合與過擬合之間難以調和的矛盾

人工智慧必備的數理統計基礎,著重於抽象概念的解釋而非具體的數學公式,其要點如下:

1. 數理統計的任務是根據可觀察的樣本反過來推斷總體的性質;
2. 推斷的工具是統計量,統計量是樣本的函數,是個隨機變量;
3. 參數估計通過隨機抽取的樣本來估計總體分布的未知參數,包括點估計和區間估計;
4. 假設檢驗通過隨機抽取的樣本來接受或拒絕關於總體的某個判斷,常用於估計機器學習模型的泛化錯誤率

既然機器學習和數理統計關注的都是利用數據提取信息或者規律,機器學習中的很多算法也依賴於數理統計作為基礎,那麼如何看待兩者之間的區別和聯繫呢?
Share:

0 意見: