Loading...
|
Please use this identifier to cite or link to this item:
https://nccur.lib.nccu.edu.tw/handle/140.119/30937
|
Title: | 資料採礦中的資料純化過程之效果評估 |
Authors: | 楊惠如 |
Contributors: | 鄭宇庭 謝邦昌
楊惠如 |
Keywords: | 資料純化 資料採礦 遺漏值 插補 函數映射 資料庫加值 Data Systematic Purifying Analysis Data Mining Missing Data Rare Data Imputation Functional Mapping Database Value-Added |
Date: | 2004 |
Issue Date: | 2009-09-14 |
Abstract: | 數年來台灣金控公司已如雨後春筍般冒出來,在金控公司底下含有產險公司、銀行、證券以及人壽公司等許多金融相關公司,因此,原本各自擺放於各子公司的資料庫可以通通整合在一起,當高階主管想提出決策時可利用資料庫進行資料採礦,以獲取有用的資訊。然而資料採礦的效果再怎麼神奇,也必須先有一個好的、完整的資料庫供使用,如果資料品質太差或者資料內容與研究目標無關,這是無法達成完美的資料採礦工作。
透過抽樣調查與函數映射的方法使得資料庫得以加值,因此當有目標資料庫與輔助資料庫時,可以利用函數映射方法使資料庫整合為一個大資料庫,再將資料庫中遺失值或稀少值作插補得到增值後的資料庫。在此給予這個整個流程一個名詞 ”Data SPA(Data Systematic Purifying Analysis)”,即「資料純化」。在本研究中,主要就是針對純化完成的資料進行結構的確認,確認經過這些過程之後的資料是效用且正確的。在本研究採用了橫向評估、縱向評估與全面性評估三種方法來檢驗資料。
資料純化後的資料經過三項評估後,可以發現資料以每個變數或者每筆觀察樣本的角度去查驗資料時,資料的表現並不理想,但是,資料的整體性卻是相當不錯。雖然以橫向評估和縱向評估來看,資料純化後的資料無法與原本完整的資料完全一致,但是透過資料純化的過程,資料得以插補且欄位得以擴增,這樣使得資料的資訊量增加,所以,資料純化確實有其效果,因為資訊量的增加對於要進行資料採礦的資料庫是一大助益。 For the past few years, Taiwan has experienced a tremendous growth in its financial industry namely in banks, life and property insurances, brokerages and security firms. Needless to say the need to store the data produced in this industry has become an important and a primary task to accomplish. Originally, firms store the data in their own database. With the progressive development of data management, the data now can be combined and stored into one large database that allows the users an easy access for data retrieval. However, if the quality of the data is questionable, then the existence of database would not provide much insightful information to the users.
To tackle the fore mentioned problem, this research uses functional mapping combining the goal and auxiliary database and then imputes the missing data or the rare data from the combined database. This whole process is called Data Systematic Purifying Analysis (Data SPA). The purpose of this research is to evaluate whether there is any improvement of the structure of the data when the data has gone through the process of systematic purifying analysis. Generally the resulting data should be within good quality and useful.
After the assessments of the data structure, the behavior of the data with respect to their added variables and observations is unsatisfactory. However the manifestation of the data as a whole has seen an improvement. The modified database through Data SPA has augmented the database making it more efficient to the usage of data mining techniques. |
Reference: | 一、中文部分 1、尹相志(2003),SQL 2000 Analysis Service資料採礦服務。台北:維科圖書有限公司。 2、包寶茹(2004),應用資料採礦技術於資料庫加值中的誤差指標及模型準則,政治大學統計學研究所碩士論文。 3、李卓翰(2003),資料倉儲理論與實務。台北:學貫行銷股份有限公司。 4、何冠章(1995),資料庫應用。台北:高點文化事業有限公司。 5、邱蔚群(2003),資料採礦技術在保險公司客戶保單貸款行為研究的應用,政治大學統計學研究所碩士論文。 6、林宏瑜(2001),SQL2000之決策分析:OLAP建置與應用。台北:博碩文化股份有限公司。 7、林建言(2004),利用函數映射進行資料庫增值於資料採礦中,政治大學統計學研究所碩士論文。 8、林傑斌,劉明德,陳湘(2002),資料採掘與OLAP理論與實務。台北:文魁資訊股份有限公司。 9、韋端,鄭宇庭,鄧家駒,匡宏波,謝邦昌(2003),Data Mining概述--以Clementine 7.0為例。台北:中華資料採礦協會。 10、陳順宇(1996),迴歸分析。台北:華泰文化事業股份有限公司 。 11、陳順宇(2004),多變量分析。台北:華泰文化事業股份有限公司 。 12、黃雅芳(2004),應用資料採礦技術於資料庫加值中的插補方法比較,政治大學統計學研究所碩士論文。 13、黃登源 (1998),應用迴歸分析。台北:華泰文化事業股份有限公司。 14、黃國源(2000),類神經網路與圖形識別。台北:維科出版社。 15、蔡瑞煌(1995),類神經網路概論。台北:三民書局股份有限公司。 16、蔣元隆,謝欽旭(1987),人工智慧技術概論。台北:松崗電腦圖書資料有限公司。 17、諶家蘭(2002),資料庫管理系統:理論與實務。台北:智勝文化事業有限公司。 18、謝邦昌(2001),資料採礦入門及應用--從統計技術看資料採礦。台北:資商訊息顧問有限公司。 19、謝邦昌,易丹輝(2003),統計資料分析:以STATISTICA6.0為例。台北:中華資料採礦協會。 二、英文部分 1、Berry, M. J. A. and Linoff, G. S. (1997), Data Mining Techniques: for Marketing, Sales, and Customer Support. New York: John Wiley & Sons Inc. 2、Berry, M. J. A. and Linoff, G. S. (2000), Mastering Data Mining Techniques, The Art and Science of Customer Relationship Management. New York: John Wiley & Sons Inc. 3、Cios, K., Pedrycz, W. and Swiniarski, R.W. (1998) , Data Mining Methods for Knowledge Discovery . New York:Kluwer Academic Publishers. 4、Dasu, T. and Johnson, T. (2003), Exploratory Data Mining and Data Cleaning. New York:John Wiley & Sons Inc. 5、Delmater, R.(2001) , Data Mining Explained : A Manager`s Guide to Customer-Centric Business Intelligence. Boston:Digital Press. 6、Dunham, M. H. (2003), Data Mining: Introductory and Advanced Topics. New Jersey: Prentice Hall. 7、Groth, R. (1998) , Data Mining : A Hands-On Approach for Business Professionals. New York:Prentice Hall PTR. 8、Han, J. and Kamber, M.(2001), Data Mining:Concepts and Techniques. New York:Morgan Kaufmann Publishers. 9、Hand, D., Mannila, H. and Smyth, P. (2001), Principles of Data Mining.New York:MIT Press. |
Description: | 碩士 國立政治大學 統計研究所 92354003 93 |
Source URI: | http://thesis.lib.nccu.edu.tw/record/#G0923540031 |
Data Type: | thesis |
Appears in Collections: | [統計學系] 學位論文
|
Files in This Item:
File |
Size | Format | |
index.html | 0Kb | HTML2 | 233 | View/Open |
|
All items in 政大典藏 are protected by copyright, with all rights reserved.
|