การจำแนกข้อมูลเพื่อวินิจฉัยความเสี่ยงการเป็นโรคเบาหวานโดยใช้เทคนิค วิธีแบบร่วมกันตัดสินใจและวิธีเลือกคุณลักษณะเด่นไปข้างหน้า

นพรัตน์ นนท์ศิริ; พิศณุ ชัยจิตวณิชกุล; กริช สมกันธา

pdf

เผยแพร่แล้ว: ส.ค. 31, 2022

คำสำคัญ:

วิธีแบบร่วมกันตัดสินใจ การคัดเลือกคุณลักษณะที่เหมาะสม ความเสี่ยงการเป็นโรคเบาหวาน

นพรัตน์ นนท์ศิริ

สาขาวิทยาการข้อมูลและเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยราชภัฏอุดรธานี

พิศณุ ชัยจิตวณิชกุล

สาขาวิทยาการคอมพิวเตอร์และเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยราชภัฏอุดรธานี

กริช สมกันธา

สาขาวิทยาการข้อมูลและเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยราชภัฏอุดรธานี

บทคัดย่อ

งานวิจัยนี้มีวัตถุประสงค์เพื่อหาขั้นตอนวิธีในการจำแนกข้อมูลเพื่อวินิจฉัยความเสี่ยงการเป็นโรคเบาหวาน กรณีข้อมูลผู้ป่วยโรคเบาหวานโรงพยาบาลสมเด็จพระยุพราชบ้านดุง เป็นข้อมูลที่เกิดจากการทบทวนเวชระเบียนผู้ป่วยโรคเบาหวานย้อนหลังปี 2557-2561
ซึ่งลักษณะข้อมูลดังกล่าวเป็นข้อมูลที่มีมิติสูง เนื่องจากคุณลักษณะของข้อมูลนั้นมีหลายคุณลักษณะ และบางคุณลักษณะไม่มีความสัมพันธ์ต่อการจำแนกข้อมูล ดังนั้นจำเป็นต้องมีการเลือกคุณลักษณะเบื้องต้น เพื่อลดความซ้ำซ้อนของข้อมูลและเพิ่มประสิทธิภาพการจำแนกความถูกต้องของคลาส (Class) ในการแก้ปัญหาเหล่านี้ผู้วิจัยได้ใช้วิธีเลือกคุณลักษณะเด่น
ไปข้างหน้า (Forward Selection) และวิธีร่วมกันตัดสินใจจากต้นไม้ตัดสินใจ 3 โมเดล เพื่อเลือกคุณสมบัติที่เหมาะสม (Voting Tree) วัดประสิทธิภาพคุณลักษณะด้วยวิธีครอสวาลิเดชั่น (Cross Validation) จำแนกข้อมูลด้วยขั้นตอนวิธีร่วมกันตัดสินใจ (Voting Ensemble), วิธีเกรเดียนท์บูตทรีส์ (Gradient Boosted), วิธีต้นไม้ตัดสินใจ (Decision Tree), วิธีแรนดอม ฟอเรสต์ (Random Forest), วิธีนาอีฟเบย์ (Naïve Bayes), วิธีซัพพอร์ทเวกเตอร์แมชชีน (Support Vector Machine), วิธีเพื่อนบ้านที่ใกล้เคียงกันที่สุด (K-Nearest Neighbor)
วัดประสิทธิภาพแบบจำลอง (Accuracy) ด้วยวิธีครอสวาลิเดชั่น จากการทดสอบความถูกต้องในการจำแนกข้อมูล ผลการเปรียบเทียบพบว่า วิธีร่วมกันตัดสินใจให้ผลลัพธ์ที่ดีกว่าการใช้เทคนิคแบบโมเดลเดี่ยว (Single Model) ทั้งนี้เพราะเมื่อนำตัวจำแนกข้อมูลที่หลากหลายมาช่วยกันตัดสินใจด้วยโหวตเสียงข้างมากจะช่วยในการลดปัญหาการเกิดความโน้มเอียงของข้อมูล (Bias) และการเลือกใช้ตัวจำแนกที่ดีแต่ละตัวช่วยกันเสริมประสิทธิภาพในการจำแนกข้อมูล ทำให้โมเดลที่ได้มีประสิทธิภาพสูงขึ้น นอกจากนั้นยังพบอีกว่าการเลือกใช้คุณลักษณะที่เหมาะสมด้วยวิธีเลือกคุณลักษณะเด่นไปข้างหน้าที่ผ่านวิธีร่วมกันตัดสินใจทำให้โมเดลมีประสิทธิภาพในการจำแนกเพิ่มมากยิ่งขึ้น เหมาะสมที่จะนำโมเดลดังกล่าวนำไปใช้เป็นแนวทางในการสนับสนุนการตัดสินใจทางการแพทย์ในการวินิจฉัยการเป็นโรคเบาหวานอย่างมีประสิทธิภาพ

ฉบับ

ปีที่ 10 ฉบับที่ 2 (2022): พฤษภาคม - สิงหาคม

ประเภทบทความ

บทความวิจัย

เอกสารอ้างอิง

Li, X., Zhao, Z., Gao, C., Rao, L., Hao, P., Jian, D., Li, W., Tang, H., & Li M., (2017). The diagnostic value of whole blood lncRNA ENST00000550337. 1 for prediabetes and type 2 diabetes mellitus. Experimental and Clinical Endocrinology & Diabetes, 125(6), 377–383.

WHO & IDF. (2006). Diabetes.mellitus.California.[online]. Retrieved August 26, 2021, from Available: https://www.who.int/diabetes/publications/diagnosis_diabetes2006/en.

Kazerouni, F., Bayani, A., Asadi, F., Saeidi, L., Parvizi, N., & Mansoori, Z. (2020). Type2 diabetes mellitus prediction using data mining algorithms based on the long noncoding RNAs expression: a comparison of four data mining approaches. BMC Bioinformatics, 21, 372- 385.

Zou, Q., Qu, K., Luo, Y., Yin, D., Ju, Y., & Tang, H. (2018). Predicting diabetes mellitus with machine learning techniques. Frontiers in Genetics, 9, 515-525.

Nagaratnam, A., Deepika, B., Sharoon, T., & Ajay, CH. (2020). Diagnosis of Various Thyroid Ailments using Data Mining Classification Techniques. International Journal of Scientific and Research Publications, 10(5), 984-987.

Lan, H., & Pan, Y. (2019). A Crowdsourcing quality prediction model based on random forests. In: Proceedings of 18th International Conference on Computer and Information Science (ICIS), 17-19 June 2019, Beijing, China. 315-319.

Dutta, J., Yong Woon K., & Dalia, D. (2020). Comparison of gradient boosting and extreme boosting ensemble methods for webpage classification. In: Proceedings of Fifth International Conference on Research in Computational Intelligence and Communication Networks (ICRCICN), 26 – 27 November 2020, Bangalore, India. 77-82.

Priyanka, S., Srabani, P., & Sarmistha, N. (2020). A Correlation - Sequential Forward Selection Based Feature Selection Method for Healthcare Data Analysis. In: Proceedings of IEEE International Conference on Computing, Power and Communication Technologies (GUCON), 2-4 October, 2020, Greater Noida, India. 69-72.

Article Sidebar

Main Article Content

บทคัดย่อ

Article Details

เอกสารอ้างอิง