การศึกษาเปรียบเทียบวิธีการประมาณค่าสูญหาย โดยวิธีการวิเคราะห์จำแนกประเภท ต้นไม้การตัดสินใจ และ ค่าเฉลี่ย
Abstract
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการประมาณค่าสูญหายโดยวิธีการทางสถิติ ได้แก่ 1) การ วิเคราะห์จำแนกประเภท 2) ต้นไม้การตัดสินใจ 3) ค่าเฉลี่ย เกณฑ์เปรียบเทียบประสิทธิภาพของการประมาณค่า สูญหายใช้ค่าเฉลี่ยความคลาดเคลื่อนสัมพัทธ์ (MMRE) ข้อมูลที่ใช้ในการศึกษาวิจัย คือ ฐานข้อมูลภาพถ่ายก้อน เนื้อเต้านม (Mammographic mass) ของ UCI Machine learning repository data set จำนวน 800 ชุด (Case) วิธีการวิจัยมีดังต่อไปนี้ 1) แบ่งฐานข้อมูลเป็น 2 กลุ่ม ที่ระดับความเชื่อมั่น 95% ด้วยวิธีของ Taro Yamane คือ กลุ่มข้อมูลเรียนรู้ (Training data) 533 ชุด และ กลุ่มข้อมูลทดสอบ (Testing data) 267 ชุด 2) นำข้อมูลเรียนรู้มา หาสมการทดแทนค่าสูญหายของแต่ละวิธี 3) นำข้อมูลทดสอบมาแทนค่าสมการที่ได้เพื่อหาค่าทดแทนค่าสูญ หาย 4) คำนวณหาค่าความคลาดเคลื่อนสัมพัทธ์และค่าเฉลี่ยความคลาดเคลื่อนสัมพัทธ์ของแต่ละวิธี ผลการวิจัย พบว่าวิธีที่ดีที่สุดเรียงตามลำดับจากมากไปน้อยเป็นดังนี้ 1) การวิเคราะห์จำแนกประเภท (MMRE=26.56%) 2) ต้นไม้การตัดสินใจ (MMRE=33.30%) และ 3) ค่าเฉลี่ย (MMRE=63.26%) ดังนั้น การวิเคราะห์จำแนกประเภท จึงมีความเหมาะสมกับข้อมูลที่มีความสัมพันธ์กันและมีการกระจายออกเป็นกลุ่มที่มีความแตกต่างกันอย่าง ชัดเจน การประมาณค่าสูญหายจึงจะมีความใกล้เคียงกับค่าของข้อมูลจริงมากที่สุด
Abstract
The objective of this research was to compare statistical imputation methods: 1) Discriminant Analysis (DA), 2) Decision Tree, and 3) Mean. The criteria for the efficiency comparison was estimated by Mean Magnitude of Relative Error (MMRE). The data used for the study were extracted from 800 sets of the mammographic mass database of UCI Machine Learning Repository Data Set. The research processes included: 1) Divided the data of 800 sets into two groups (95% Reliability based on Yamane’s formula, resulting in 533 sets of learning data and 267 sets of testing data), 2) Used the data of learning sets to form an equation for finding the substitution of incomplete values provided, 3) Replaced the missing values of the equation with the data of testing sets, and 4) Computed Magnitude of Relative Error (MRE) and Mean Magnitude of Relative Error (MMRE) for each of 3 methods. In summary, it was found that the best approaches for calculating MMRE ranged from 1) Discriminant Analysis, 2) Decision Tree, and 3) Mean (26.56%, 33.30%, 63.27%) respectively. Discriminant Analysis, therefore, was appropriate approach for data that could be identified correlation and had the high degree of dispersion in order to predict the best results for missing values.