Factors Affecting Decision to Study in Bachelor’s Degree of Faculty of Business Administrator and Liberal Art Using Feature Selection and Data Mining Techniques

Main Article Content

Worakarn Jaidee
Narin Jiwitan

Abstract

The objective of this research was to study the factors affecting the decision to study at the bachelor's degree level, Faculty of Business Administration and Liberal Arts and to compare the effectiveness of data mining techniques. Based on the basic information on student recruitment for academic and registration of Rajamangala University of Technology Lanna, Chiang Mai, during the academic year 2020 - 2022, there were a total of 2,509 applicants. The research team has brought the data for factor analysis using feature selection and data mining techniques. The feature selection techniques used consisted of 3 techniques, namely 1) Chi Square Statistic, 2) Correlation Based, and 3) Information Gain. The data mining techniques used consisted of 6 techniques, namely 1) Decision Tree, 2) Random Forest, 3) Gradient Boosting Tree, 4) Naïve Bayes, 5) Logistic Regression and 6) Voting. The findings revealed that the factors that most affected the decision to study in the bachelor's degree from all techniques of qualification selection were: Selected field of study or course, original course and original qualifications. The technique with the highest accuracy in forecasting was the Voting technique with an accuracy of 73.44%, with a higher accuracy than the Random Forest, Logistic Regression, Decision Tree, Naïve Bayes and Gradient Boosting Tree, whose accuracies were 71.45%, 71.05%, 68.26%, 65.60%, 64.81%, respectively.

Article Details

How to Cite
Jaidee, W., & Jiwitan, N. (2023). Factors Affecting Decision to Study in Bachelor’s Degree of Faculty of Business Administrator and Liberal Art Using Feature Selection and Data Mining Techniques. KKU Science Journal, 51(2), 155–169. https://doi.org/10.14456/kkuscij.2023.14
Section
Research Articles

References

กาญจน์เขจร ชูชีพ. (2561). การถดถอยโลจีสติก (Logistic Regression): Remote Sensing Technical Note. คณะวน-ศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ (5): 1 - 10.

จิราภา เลาหะวรนันท์, รชต ลิ้มสุทธิวันภูมิ และบัณฑิต ฐานะโสภณ. (2558). การใช้เทคนิคการทำเหมืองข้อมูลในการจำแนกและคัดเลือกแขนงวิชาสำหรับนักศึกษาคณะเทคโนโลยีสารสนเทศ. วารสารเทคโนโลยีสารสนเทศลาดกระบัง 4(2): 1 - 9.

ธีระ สินเดชารักษ์. (2565). ชำแหละผลกระทบ ‘วิกฤตเด็กไทยเกิดน้อย’ เขย่าสังคมไทย. แหล่งข้อมูล: https://tu.ac.th/thammasat-310165- crisis-thai-children-born-less. ค้นเมื่อวันที่ 15 มีนาคม 2566.

ปพิชญา กลางนอก. (2561). การประยุกต์ใช้เทคนิคแบบรวมเพื่อเพิ่มประสิทธิภาพของแบบจำลองตามกฎ. วิทยานิพนธ์วิทยาศาสตร์มหาบัณฑิต, มหาวิทยาลัยมหาสารคาม. มหาสารคาม. 53 หน้า.

รัชฎา เทพประสิทธิ์ และจรัญ แสนราช. (2563). การวิเคราะห์ปัจจัยที่มีผลต่อการเลือกสาขาวิชาของนักศึกษาระดับปริญญาตรี คณะครุศาสตร์ โดยใช้เทคนิคการทำเหมืองข้อมูล. วารสารบัณฑิตศึกษา มหาวิทยาลัยราชภัฏวไลยอลงกรณ์ ในพระบรมราชูปถัมภ์ 14(1): 134 - 146.

อัศวิน สุรวัชโยธิน และวรภัทร ไพรีเกรง. (2564). การสร้างตัวแบบการทำนายในการเลือกศึกษาต่อในระดับอุดมศึกษา โดยการใช้เทคนิคแบบบูรณาการในการแก้ปัญหาการจำแนกข้อมูลไม่สมดุลของกลุ่มผู้เรียน. วารสารวิทยาการและเทคโนโลยีสารสนเทศ 11(1): 65 – 79.

Bauer, E. and Kohavi, R. (1999). An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants. Machine Learning 36: 105 – 139.

Breiman, L. (2001). Random Forest. Machine Learning 45: 5 - 32.

Chawla, V.N., Bowyer, W.K., Hall, O.L. and Kegelmeyer, P.W. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research 16(1): 321 - 357.

Hall, A.M. (1999). Correlation-based Feature Selection for Machine Learning. Thesis for the degree of Doctor of Philosophy, The University of Waikato. Hamilton, NewZealand. 198 pages.

Jin, X., Xu, A., Bie, R. and Guo, P. (2006). Machine Learning Techniques and Chi-Square Feature Selection for Cancer Classification Using SAGE Gene Expression Profiles. Data Mining for Biomedical Applications 3916: 106 - 115.

Lee, C. and Lee, G.G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information Processing & Management 42(1): 155 - 165.

Natekin, A. and Knoll, A. (2013). Gradient boosting machines, a tutorial. Frontiers in Neurorobotics 7: 1 - 21.

Peng, J.Y.C., Lee, L.K., and Ingersoll, M.G. (2002). An Introduction to Logistic Regression Analysis and Reporting. The Journal of Educational Research 96(1): 3 - 14.

Quinlan, J.R. (1986). Induction of Decision Trees. Machine Learning 1: 81 - 106.

Rish, I. (2001). An Empirical Study of the Naïve Bayes Classifier. ResearchGate 3: 41 - 46.

Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehouse 5(4): 13 – 22.

Sripaoray, S. and Sinsomboonthong, S. (2017). Efficiency Comparison of Data Mining Classification Methods for Chronic Kidney Disease: A Case Study of a Hospital in India. Thai Science and Technology Journal 5(25): 839 - 853.

Vrigazova, B. (2021). The Proportion for Splitting Data into Training and Test Set for the Bootstrap in Classification Problems. Business Systems Research Journal 1(12): 228 - 242.