ความถูกต้องในการแทนค่าข้อมูลสูญหายในการจำแนกประเภทกรณีข้อมูลสองกลุ่ม

Main Article Content

จำลอง วงษ์ประเสริฐ

บทคัดย่อ

การศึกษาครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบความถูกต้องของการจำแนกประเภทกรณีข้อมูลสองกลุ่ม ด้วยวิธีซัพพอร์ตเวกเตอร์แมชชิน (Support Vector Machines; SVM) โครงข่ายประสาทเทียม (Artificial Neural Networks; ANN) แรนดอมฟอร์เรส (Random Forests; RF) การแทนค่าแบบพหุ (Multiple Imputation; MI) และการแทนค่าแบบแบ็กทรี (Bagged Tree Imputation; BTI) โดยใช้ชุดข้อมูล 3 ชุด ได้แก่ ข้อมูลชุดที่ 1 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 7 ตัวแปร และข้อมูลต่อเนื่องจำนวน 9 ตัวแปร ข้อมูลชุดที่ 2 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 9 ตัวแปร และข้อมูลชุด ที่ 3 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลต่อเนื่องจำนวน 9 ตัวแปร การเปรียบเทียบดำเนินการภายใต้เงื่อนไข 1) ข้อมูล จำนวน 3 ชุด 2) ข้อมูลสูญหาย 3 ประเภท ได้แก่ การสูญหายแบบสุ่มอย่างสมบูรณ์ (Missing Completely at Random; MCAR) การสูญหายแบบสุ่ม (Missing at Random; MAR) และการสูญหายแบบไม่สุ่ม (Not Missing at Random; NMAR) 3) ร้อยละของข้อมูลสูญหาย ได้แก่ ร้อยละ 5, 10, 15, 20, 25 และ 30 ผลการวิเคราะห์ความถูกต้องของการจำแนกประเภทพบว่า ในภาพรวมภายใต้ทุกเงื่อนไขของการทดลอง แนะนำให้ใช้วิธีแรนดอมฟอร์เรส และซัพพอร์ตเวกเตอร์แมชชิน ภายใต้เงื่อนไขการสูญหายแบบสุ่มอย่างสมบูรณ์ และการสูญหายแบบสุ่ม แนะนำให้ใช้วิธีซัพพอร์ตเวกเตอร์แมชชิน ภายใต้เงื่อนไขการสูญหายแบบไม่สุ่ม แนะนำให้ใช้วิธีแรนดอมฟอร์เรส

Downloads

Download data is not yet available.

Article Details

บท
บทความวิจัย ด้านวิทยาศาสตร์ประยุกต์

References

[1] D. B. Rubin, Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons Inc, 1987.

[2] W. E Becker and W. B. Walstad. “Data loss from pretest to posttest as a sample selection problem,” The Review of Economics and Statistics, vol. 72, no. 1, pp. 184–188, 1990.

[3] W. Becker and J. Powers, “Student performance, attrition, and class size given missing student data,” Economics of Education Review, vol. 20, no. 4, pp. 377–388, 2001.

[4] S. X. Chen, D. H. Leung, and J. Qin. “Improving semiparametric estimation by using surrogate data,” Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol. 70, no. 4, pp. 803–823, 2008.

[5] P. S. Kott and T. Chang, “Using calibration weighting to adjust for nonignorable unit nonresponse,” Journal of the American Statistical Association, vol. 105, no. 491, pp. 1265–1275, 2010.

[6] R. J. Little and D. B. Rubin, Statistical Analysis with Missing Data, 2nd ed., New York: John Wiley & Sons Inc, 2020, pp. 408.

[7] D. Dua and C. Graff, “UCI machine learning repository,” Irvine, CA: University of California, School of Information and Computer Science, 2019.

[8] Z. H. O. U. Xin, W. U. Ying, and Y. A. N. G. Bin, “Signal classification method based on support vector machine and high-order cumulants,” Wireless Sensor Network, vol. 2, no. 1, pp. 48–52, 2010.

[9] N. K. Ibrahim, R. S. A. Raja Abdullah, and M. I. Saripan, “Artificial neural network approach in radar target classification,” Journal of Computer Science, vol. 5, no. 1, pp. 23–32, 2009.

[10] L. Breiman, “Random forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001.

[11] I. Jordanov, N. Petrov, and A. Petrozziello. “Classifiers accuracy improvement based on missing data imputation,” Journal of Artificial Intelligence and Soft Computing Research, vol. 8, no. 1, pp. 31–48, 2018.

[12] S. Verboven, K. V. Branden, and P. Goos, “Sequential imputation for missing values,” Computational Biology and Chemistry, vol. 31, no. 5–6, pp. 320–327, 2007.

[13] M. Saar-Tsechansky and F. Provost, “Handling missing values when applying classification models,” Journal of Machine Learning Research, vol. 8, pp. 1623–1657, 2007.

[14] G. Rahman and Z. Islam, “A decision tree-based missing value imputation technique for data pre-processing,” in Proceedings of the Ninth Australasian Data Mining Conference, 2011, pp. 41–50.