ความถูกต้องในการแทนค่าข้อมูลสูญหายในการจำแนกประเภทกรณีข้อมูลสองกลุ่ม

Main Article Content

จำลอง วงษ์ประเสริฐ

บทคัดย่อ

การศึกษาครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบความถูกต้องของการจำแนกประเภทกรณีข้อมูลสองกลุ่ม ด้วยวิธีซัพพอร์ตเวกเตอร์แมชชิน (Support Vector Machines; SVM) โครงข่ายประสาทเทียม (Artificial Neural Networks; ANN) แรนดอมฟอร์เรส (Random Forests; RF) การแทนค่าแบบพหุ (Multiple Imputation; MI) และการแทนค่าแบบแบ็กทรี (Bagged Tree Imputation; BTI) โดยใช้ชุดข้อมูล 3 ชุด ได้แก่ ข้อมูลชุดที่ 1 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 7 ตัวแปร และข้อมูลต่อเนื่องจำนวน 9 ตัวแปร ข้อมูลชุดที่ 2 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลเชิงกลุ่ม 9 ตัวแปร และข้อมูลชุด ที่ 3 ประกอบด้วย ตัวแปรอิสระที่เป็นข้อมูลต่อเนื่องจำนวน 9 ตัวแปร การเปรียบเทียบดำเนินการภายใต้เงื่อนไข 1) ข้อมูล จำนวน 3 ชุด 2) ข้อมูลสูญหาย 3 ประเภท ได้แก่ การสูญหายแบบสุ่มอย่างสมบูรณ์ (Missing Completely at Random; MCAR) การสูญหายแบบสุ่ม (Missing at Random; MAR) และการสูญหายแบบไม่สุ่ม (Not Missing at Random; NMAR) 3) ร้อยละของข้อมูลสูญหาย ได้แก่ ร้อยละ 5, 10, 15, 20, 25 และ 30 ผลการวิเคราะห์ความถูกต้องของการจำแนกประเภทพบว่า ในภาพรวมภายใต้ทุกเงื่อนไขของการทดลอง แนะนำให้ใช้วิธีแรนดอมฟอร์เรส และซัพพอร์ตเวกเตอร์แมชชิน ภายใต้เงื่อนไขการสูญหายแบบสุ่มอย่างสมบูรณ์ และการสูญหายแบบสุ่ม แนะนำให้ใช้วิธีซัพพอร์ตเวกเตอร์แมชชิน ภายใต้เงื่อนไขการสูญหายแบบไม่สุ่ม แนะนำให้ใช้วิธีแรนดอมฟอร์เรส

Article Details

บท
บทความวิจัย ด้านวิทยาศาสตร์ประยุกต์

References

[1] D. B. Rubin, Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons Inc, 1987.

[2] W. E Becker and W. B. Walstad. “Data loss from pretest to posttest as a sample selection problem,” The Review of Economics and Statistics, vol. 72, no. 1, pp. 184–188, 1990.

[3] W. Becker and J. Powers, “Student performance, attrition, and class size given missing student data,” Economics of Education Review, vol. 20, no. 4, pp. 377–388, 2001.

[4] S. X. Chen, D. H. Leung, and J. Qin. “Improving semiparametric estimation by using surrogate data,” Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol. 70, no. 4, pp. 803–823, 2008.

[5] P. S. Kott and T. Chang, “Using calibration weighting to adjust for nonignorable unit nonresponse,” Journal of the American Statistical Association, vol. 105, no. 491, pp. 1265–1275, 2010.

[6] R. J. Little and D. B. Rubin, Statistical Analysis with Missing Data, 2nd ed., New York: John Wiley & Sons Inc, 2020, pp. 408.

[7] D. Dua and C. Graff, “UCI machine learning repository,” Irvine, CA: University of California, School of Information and Computer Science, 2019.

[8] Z. H. O. U. Xin, W. U. Ying, and Y. A. N. G. Bin, “Signal classification method based on support vector machine and high-order cumulants,” Wireless Sensor Network, vol. 2, no. 1, pp. 48–52, 2010.

[9] N. K. Ibrahim, R. S. A. Raja Abdullah, and M. I. Saripan, “Artificial neural network approach in radar target classification,” Journal of Computer Science, vol. 5, no. 1, pp. 23–32, 2009.

[10] L. Breiman, “Random forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001.

[11] I. Jordanov, N. Petrov, and A. Petrozziello. “Classifiers accuracy improvement based on missing data imputation,” Journal of Artificial Intelligence and Soft Computing Research, vol. 8, no. 1, pp. 31–48, 2018.

[12] S. Verboven, K. V. Branden, and P. Goos, “Sequential imputation for missing values,” Computational Biology and Chemistry, vol. 31, no. 5–6, pp. 320–327, 2007.

[13] M. Saar-Tsechansky and F. Provost, “Handling missing values when applying classification models,” Journal of Machine Learning Research, vol. 8, pp. 1623–1657, 2007.

[14] G. Rahman and Z. Islam, “A decision tree-based missing value imputation technique for data pre-processing,” in Proceedings of the Ninth Australasian Data Mining Conference, 2011, pp. 41–50.