| 研究生: |
劉明音 Min-Yin Liu |
|---|---|
| 論文名稱: |
強韌迴歸在資料探勘上之應用 |
| 指導教授: |
鄒宗山
Tsung-Shan Tsou |
| 口試委員: | |
| 學位類別: |
碩士 Master |
| 系所名稱: |
理學院 - 統計研究所 Graduate Institute of Statistics |
| 畢業學年度: | 91 |
| 語文別: | 中文 |
| 論文頁數: | 31 |
| 中文關鍵詞: | 強韌迴歸 、資料挖掘 |
| 外文關鍵詞: | robust likelihood function, data mining |
| 相關次數: | 點閱:9 下載:0 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
資料挖掘的特性之一便是資料量的龐大。而分析龐大資料量的困難之一在於計算機的記憶體有限,所以無法一次完成對全部資料的處理。因此因應的方式之一便是將資料分割或分類儲存,之後再將分開處理的結果做一個結合,如此一來便可以解決計算機記憶體不足的問題。
資料量之龐大是資料探勘的特徵之一。而數目龐大的資料往往有資料來源不同分配的問題。分析這類的混合資料 (mixture data),原本就是棘手的問題。而當資料來源分配之個數以及分配之形式都未知時,統計分析的工作便更加的困難。
Royall & Tsou (2003) 提出了強韌概似函數 (robust likelihood function) 觀念。在樣本數大的時候,即使資料的真正分配未知,根據強韌概似函數還是能得到參數的正確的推論。而Tsou (2003) 則將強韌概似函數的方法推廣到在廣義線性模型架構之下的迴歸參數的推論的問題上。
本文將針對線性複迴歸模型,利用Tsou (2003) 介紹的強韌迴歸方法,針對分配未知的龐大資料,經由簡單平均和加權平均的結合方式,結合分段所估計出的迴歸參數,並對迴歸參數做統計推論。
Chao, M. T. and Lin, G. D. (1993). The asymptotic distributions of the remedians, Journal of Statistical Planning and Inference, 37, 1-11.
Hand, D. J. (1998). Data mining: statistics and more? The American Statistician. Vol. 52. No. 2.
Huang, H-D, Chang, H-L, Tsou, T-S, Liu, B-J, Kao, C-Y and Horng, J-H (2003). A data mining method to predict transcriptional regulatory sites based on differentially expressed genes in human genome. IEEE, 297-304.
Hurley, C. and Modarres, R. (1995). Low-storage quantile estimation. Computational Statistics, 10:311-325.
Rousseeuw, P. J. and Bassett , G.W., Jr. (1990). The remedia: A robust averaging method for large data sets. J. Amer. Statist. Assoc. Vol.85. No. 409, 97-104.
Royall, R.M and Tsou, T-S (2003). Interpreting statistical evidence using imperfect models: Robust adjusted likelihood functions. JRSS-B, 65, 391-404.
Tsou, T-S (2003). Parametric robust inferences for regression parameters under generalized linear models. (Submitted)
馬瀰嘉、蘇佩芳和林共進 (2001). 資料探勘-超大型資料庫基本統計量的計算。成功大學統計學報,第二十四期,68-84.