研究報告
學年 | 92 |
---|---|
學期 | 1 |
出版(發表)日期 | 2004-01-01 |
作品名稱 | 核密度函數估計量之改良式交叉有效法 |
作品名稱(其他語言) | A Modified Cross Validation Methos for Kernel Density Estimation. |
著者 | 鄧文舜 |
單位 | 淡江大學統計學系 |
描述 | 計畫編號:NSC93-2118-M032-013 研究期間:200408~200507 研究經費:276,000 |
委託單位 | 行政院國家科學委員會 |
摘要 | 當給定某隨機變數X的一組觀測值時,可利用核估計量(kernel estimator)來估計nXXX,,,21LX的密度函數,它是一種非常簡單且受歡迎的無母數(nonparametric)方法。核估計量的帶寬值大小會影響其平滑度及其估計密度函數準確性。關於帶寬值的選取,Rudemo(1982) 與 Bowman(1984) 提出了一種概念非常簡單且很受歡迎的最小平方交叉有效(least square cross validation)法來選取帶寬值。然而,由於此一方法下的交叉有效函數會受到密度函數的影響而較重視資料密集區域,卻較輕忽了資料稀疏(sparse)的區域。因而最適帶?值的選取會受到取樣點的分佈情形影響,而與密度函數實際被估計的所在區域無關。這樣一來,如果密度函數被估計的區間中,出現相對較稀疏的取樣區域,那麼所選取出的帶寬值便會顯得太小,不適合用來計算此種區域的核估計量。此區域的密度函數估計線會因而顯得較崎嶇,甚至發生核估計量必須被設定(clipped)為0的情形。有關上述交叉有傚法的缺點,請參閱Scott and Terrel (1987) and Chiu (1991);關於密度函數核估計量之其他交叉有傚法的介紹和比較,則請參閱專書 Wand and Jones (1995)。 )(xf根據上述的考量,在最小化積分平方差(integrated square error)的想法下,本計劃將結合積分及k-nn法則(k-th nearest neighbor rule),建構一個新的交叉有效函數來修正此一缺點。不難理解,由於這個積分形式的交叉有效函數利用k-nn法則,因此密度函數對帶寬值選取的影響程度會減輕,而其選取出的帶寬值將有助於得出較平滑且較準確的核估計量。 在理論上,我們將推導出這個交叉有效函數所選取出的帶寬值,與最小化積分平方差的帶寬值h,兩者之間的近似關係。在模擬研究方面,我們將以實際世界的資料(real-world data),陳示上述最小平方交叉有傚法選取帶寬值所可能發生的缺點,並以使用的核估計量,來檢視積分交叉有傚法選取帶寬值的效果。此外,本計劃亦將以電腦模擬出的資料,利用數值方法及積分平方差準則,來研究積分式交叉有傚法,所選取出的帶寬值,在實務上及理論上的估計效果。 |
關鍵字 | |
語言 | |
相關連結 |
機構典藏連結 ( http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/6309 ) |