政大機構典藏-National Chengchi University Institutional Repository(NCCUR):Item 140.119/94411
English  |  正體中文  |  简体中文  |  Post-Print筆數 : 27 |  Items with full text/Total items : 113869/144892 (79%)
Visitors : 51887110      Online Users : 540
RC Version 6.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version
    Please use this identifier to cite or link to this item: https://nccur.lib.nccu.edu.tw/handle/140.119/94411


    Title: 線性維度縮減應用質譜儀資料之研究
    Authors: 陳柏宇
    Contributors: 余清祥
    陳柏宇
    Keywords: 線性維度縮減
    蛋白質質譜儀資料
    PCA
    SIR
    Meta Analysis
    Date: 2007
    Issue Date: 2016-05-06 16:35:54 (UTC+8)
    Abstract: 近年來電腦科技進步、資料庫健全發展,使得處理大量資料的需求增加,因而發展出結合生物醫學與資訊統計兩大領域的生物資訊(Bio-informative)。這個新學門的特色在於資料量及資料變數的龐雜,但過多資料經常干擾資訊的篩選,甚至癱瘓資料分析,因此如何適當地縮減資料(Data Reduction)就變得必要。資料縮減常藉由維度縮減(Dimension Reduction)進行,其中常見的線性維度縮減方法首推主成份分析,屬於非監督式學習(Unsupervised Learning)的一種,而線性的監督式學習(Supervised Learning)方法則有SIR(Sliced Inverse Regression)、SAVE(Sliced Average Variance Estimate)及pHd(Principal Hessian Directions)。非監督式學習的主成份分析,主要在找出少數幾個維度而可以解釋代表自變數的變異程度,而監督式學習的SIR、SAVE及pHd則可以在縮減維度時,同時考量自變數跟應變數之間的關係,而找出可以解釋應變數的維度。
    本研究為解決蛋白質質譜儀資料高維度的問題,將應用各種線性維度縮減方法,並分別使用CART(Classification and Regression Tree)、KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)、ANN(Artificial Neural Network)四種分類器,比較各維度縮減方法的分錯率高低,以交叉驗證(Cross Validation)比較維度縮減方法的優劣。研究發現在四種維度縮減方法中,PCA及SIR在各種分類器下都有較為穩定的分錯率,表現較為一致,但SAVE及pHd較不理想。我們也發現在不同的分類器下,PCA跟SIR兩者有不同表現,正確率較高的分類器(SVM與ANN)與PCA結合,而正確率較低的分類器(CART與KNN)與SIR結合,會有較佳的結果。另外,我們也嘗試整合分析(Meta Analysis),綜合幾種線性維度縮減方法,而提出邊際訓練效果法(Marginal Training Effect Method)與加權整合法(Meta Weighted Method),其中發現邊際訓練效果法若可以挑選出有效的維度,可以在不同分類器下提高整體模型,而加權整合法則確保在不同分類器下,讓其分類模型具有較為穩定的準確率;並提出相關係數重疊法(Overlap Correlation Method)來解決需要決定維度大小的問題。
    Reference: 英文部分
    Alpaydin, E. (2004), “Introduction to Machine Learning”, MIT Press.
    Breiman, L. (1996). "Bagging predictors." Machine Learning 24, 123-140.
    Cook, R. D. and Weisberg, S. (1991). "Sliced Inverse Regression for Dimension Reduction: Comment." Journal of the American Statistical Association 86(414): 328-332.
    Cortes, C. and Vapnik, V. (1995)." Support-vector network." Machine Learning 20: 273–297.
    Dietterich, T. G.. (2002). "Ensemble Learning." MIT Press.
    Freund, Y. and Schapire, R. E. (1996). "Experiments with a new boosting algorithm." In Proc. 13th International Conference on Machine Learning: 148-156.
    Freund, Y. and Schapire, R. E. (1997). "A decision-theoretic generalization of on-line learning and an application to boosting." Journal of Computer and System Sciences 55(1):119-139.
    Hastie, T. J., and Tibshirani, R. J. (1990). "Generalized additive models." London: Chapman and Hall.
    Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction." Journal of the American Statistical Association 86(414): 316-327.
    Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction " Journal of the American Statistical Association 86(414): 316-327.
    Li, K. C. (1992). "On Principal Hessian Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
    Li, K. C. (1992). "On Principle Hession Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
    Osuna, E., Freund, R. and Girosi, F. (1997), “Training Support Vector Machines: An Application to Face Detection”, In Proceedings of CVPR’97, pages 130–136,
    New York, NY, 1997. IEEE.
    Sauve, A. C. and Speed, T. P. (2004), “Normalization, Baseline Correction and Alignment of High-Throughput Mass Spectrometry Data” In Proceedings of the Genomic Signal Processing and Statistics, 2004.
    Zou, H. and Yang, Y. (2004). "Combining time series model for forescating." International Journal of Forecasting 20 (2004): 69-84

    中文部分
    方悟原(1999),「SIR、SAVE、SIR-II、pHd等四種維度縮減方法之比較探討」,國立政治大學統計學系研究所碩士論文,指導教授:江振東博士。
    牛頓雜誌編輯部(2003.03),「孜孜不倦地實驗,也會找到新發現;訪問日本島津
    製作所田中耕一研究員」。牛頓雜誌國際中文版,第235期。
    牛頓雜誌編輯部(2003.10),「我的新挑戰!訪問日本島津製作所田中耕一紀念質量分析研究所」。牛頓雜誌國際中文版,第242期。
    周鵬程(2004),「類神經網路入門」。台北市:全華圖書,第二版。
    陳順宇(2004),「多變量分析」。台北市:華泰書局,第3版。
    徐竣建(2006),「重疊法應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
    張斐章、張麗秋、黃浩倫(2004),「類神經網路理論與實務」。台北市:東華書局。
    黃靜文(2005),「維度縮減應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
    賴基銘(2004.06.25),「癌症篩檢未來的展望:SELDI 血清蛋白指紋圖譜的應用」,國家衛生研究院電子報,第52期。
    Description: 碩士
    國立政治大學
    統計學系
    94354002
    Source URI: http://thesis.lib.nccu.edu.tw/record/#G0094354002
    Data Type: thesis
    Appears in Collections:[Department of Statistics] Theses

    Files in This Item:

    File SizeFormat
    index.html0KbHTML2298View/Open


    All items in 政大典藏 are protected by copyright, with all rights reserved.


    社群 sharing

    著作權政策宣告 Copyright Announcement
    1.本網站之數位內容為國立政治大學所收錄之機構典藏,無償提供學術研究與公眾教育等公益性使用,惟仍請適度,合理使用本網站之內容,以尊重著作權人之權益。商業上之利用,則請先取得著作權人之授權。
    The digital content of this website is part of National Chengchi University Institutional Repository. It provides free access to academic research and public education for non-commercial use. Please utilize it in a proper and reasonable manner and respect the rights of copyright owners. For commercial use, please obtain authorization from the copyright owner in advance.

    2.本網站之製作,已盡力防止侵害著作權人之權益,如仍發現本網站之數位內容有侵害著作權人權益情事者,請權利人通知本網站維護人員(nccur@nccu.edu.tw),維護人員將立即採取移除該數位著作等補救措施。
    NCCU Institutional Repository is made to protect the interests of copyright owners. If you believe that any material on the website infringes copyright, please contact our staff(nccur@nccu.edu.tw). We will remove the work from the repository and investigate your claim.
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback