การประยุกต์ใช้ขั้นตอนวิธีการหาค่าเหมาะสมที่สุดแบบไบนารีวาฬสำหรับแก้ปัญหาข้อมูลไม่สมดุล

จักรกฤษณ์ พลรบ; เบญจวรรณ โรจนดิษฐ์; เจษฎา ตัณฑนุช; Eckart Schulz

PDF (Thai)

เผยแพร่แล้ว: มิ.ย. 29, 2023

คำสำคัญ:

ขั้นตอนวิธีการหาค่าเหมาะสมที่สุดแบบไบนารีวาฬ ปัญหาข้อมูลไม่สมดุล เคเพื่อนบ้านใกล้ที่สุด ซัพพอร์ตเวกเตอร์แมชชีน ขั้นตอนวิธีการสุ่มตัวอย่างลด

จักรกฤษณ์ พลรบ

สาขาวิชาคณิตศาสตร์ สำนักวิชาวิทยาศาสตร์ มหาวิทยาลัยเทคโนโลยีสุรนารี

เบญจวรรณ โรจนดิษฐ์

สาขาวิชาคณิตศาสตร์ สำนักวิชาวิทยาศาสตร์ มหาวิทยาลัยเทคโนโลยีสุรนารี

เจษฎา ตัณฑนุช

สาขาวิชาคณิตศาสตร์ สำนักวิชาวิทยาศาสตร์ มหาวิทยาลัยเทคโนโลยีสุรนารี

Eckart Schulz

สาขาวิชาคณิตศาสตร์ สำนักวิชาวิทยาศาสตร์ มหาวิทยาลัยเทคโนโลยีสุรนารี

บทคัดย่อ

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อสร้างขั้นตอนวิธีการสุ่มตัวอย่างลดแบบใหม่ โดยใช้แนวคิดของขั้นตอนวิธีการหาค่าเหมาะสมที่สุดแบบวาฬและไบนารีวาฬร่วมกับเทคนิคเคเพื่อนบ้านใกล้ที่สุดเพื่อใช้ในการแก้ปัญหาข้อมูลไม่สมดุล ซึ่งขั้นตอนวิธีที่นำเสนอนี้จะกำหนดค่าพารามิเตอร์เคเท่ากับหนึ่ง ทั้งนี้ได้เลือกชุดข้อมูลทดสอบจำนวน 12 ชุดจาก KEEL และ imbalanced-learn ซึ่งชุดข้อมูลจะมีอัตราส่วนความไม่สมดุลอยู่ในช่วง 1.82 ถึง 42.01 เพื่อใช้ในการประเมินขั้นตอนวิธีใหม่เปรียบเทียบกับการแก้ปัญหาข้อมูลไม่สมดุลด้วยวิธีการลดจำนวนตัวอย่างข้อมูล 3 ขั้นตอนวิธี ได้แก่ การลดจำนวนตัวอย่างข้อมูลแบบสุ่ม คลัสเตอร์เซนทรอยด์ และเนียร์มิส งานวิจัยนี้เริ่มจากการนำชุดข้อมูลมาแบ่งเป็นสองชุด คือ ชุดข้อมูลฝึกสอนและชุดข้อมูลทดสอบ สำหรับชุดข้อมูลฝึกสอนคลาสข้อมูลกลุ่มน้อยจะใช้ข้อมูลชุดเดิม ในขณะที่คลาสข้อมูลกลุ่มมากจะถูกวิเคราะห์เพื่อดึงชุดข้อมูลย่อยที่เป็นตัวแทนที่ดีที่สุดด้วยขั้นตอนวิธีที่นำเสนอ และประเมินประสิทธิภาพด้วยเทคนิคซัพพอร์ตเวกเตอร์แมชชีน จากผลการวิจัยพบว่าขั้นตอนวิธีที่ได้นำเสนอมีประสิทธิภาพการทำงานโดยรวมสูงที่สุด เมื่อเทียบกับขั้นตอนวิธีการสุ่มตัวอย่างลดทั้งสามที่นำมาเปรียบเทียบ ซึ่งมีผลการวัดประสิทธิภาพโดยเฉลี่ยดังนี้ Accuracy = 0.8596, F1 score = 0.6255, G-mean = 0.8941, AUROC = 0.9363, AUPRC = 0.6978, Sensitivity = 0.9444, Precision = 0.5271, MCC = 0.6204, และ Kappa = 0.5695

ฉบับ

ปีที่ 11 ฉบับที่ 1 (2023): มกราคม - มิถุนายน 2566

บท

บทความวิจัย

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

นโยบายการรับบทความ

      กองบรรณาธิการวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น มีความยินดีรับบทความจากอาจารย์ประจำ และผู้ทรงคุณวุฒิในสาขาวิศวกรรมศาสตร์และเทคโนโลยี ที่เขียนเป็นภาษาไทยหรือภาษาอังกฤษ ซึ่งผลงานวิชาการที่ส่งมาขอตีพิมพ์ต้องไม่เคยเผยแพร่ในสิ่งพิมพ์อื่นใดมาก่อน และต้องไม่อยู่ในระหว่างการพิจารณาของวารสารอื่นที่นำส่ง ดังนั้นผู้สนใจที่จะร่วมเผยแพร่ผลงานและความรู้ที่ศึกษามาสามารถนำส่งบทความได้ที่กองบรรณาธิการเพื่อเสนอต่อคณะกรรมการกลั่นกรองบทความพิจารณาจัดพิมพ์ในวารสารต่อไป ทั้งนี้บทความที่สามารถเผยแพร่ได้ประกอบด้วยบทความวิจัย ผู้สนใจสามารถศึกษาและจัดเตรียมบทความจากคำแนะนำสำหรับผู้เขียนบทความ
      การละเมิดลิขสิทธิ์ถือเป็นความรับผิดชอบของผู้ส่งบทความโดยตรง บทความที่ได้รับการตีพิมพ์ต้องผ่านการพิจารณากลั่นกรองคุณภาพจากผู้ทรงคุณวุฒิและได้รับความเห็นชอบจากกองบรรณาธิการ
      ข้อความที่ปรากฏภายในบทความของแต่ละบทความที่ตีพิมพ์ในวารสารวิชาการเล่มนี้ เป็น ความคิดเห็นส่วนตัวของผู้เขียนแต่ละท่าน ไม่เกี่ยวข้องกับสถาบันเทคโนโลยีไทย-ญี่ปุ่น และคณาจารย์ท่านอื่น ๆ ในสถาบัน แต่อย่างใด ความรับผิดชอบด้านเนื้อหาและการตรวจร่างบทความแต่ละบทความเป็นของผู้เขียนแต่ละท่าน หากมีความผิดพลาดใด ๆ ผู้เขียนแต่ละท่านจะต้องรับผิดชอบบทความของตนเองแต่ผู้เดียว
      กองบรรณาธิการขอสงวนสิทธิ์มิให้นำเนื้อหา ทัศนะ หรือข้อคิดเห็นใด ๆ ของบทความในวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น ไปเผยแพร่ก่อนได้รับอนุญาตจากผู้นิพนธ์ อย่างเป็นลายลักษณ์อักษร ผลงานที่ได้รับการตีพิมพ์ถือเป็นลิขสิทธิ์ของวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น
      ผู้ประสงค์จะส่งบทความเพื่อตีพิมพ์ในวารสารวิชาการ สถาบันเทคโนโลยีไทย-ญี่ปุ่น สามารถส่ง Online ที่ https://www.tci-thaijo.org/index.php/TNIJournal/ โปรดสมัครสมาชิก (Register) โดยกรอกรายละเอียดให้ครบถ้วนหากต้องการสอบถามข้อมูลเพิ่มเติมที่
     - กองบรรณาธิการ วารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น
     - ฝ่ายวิจัยและนวัตกรรม สถาบันเทคโนโลยีไทย-ญี่ปุ่น
      เลขที่ 1771/1 สถาบันเทคโนโลยีไทย-ญี่ปุ่น ซอยพัฒนาการ 37-39 ถนนพัฒนาการ แขวงสวนหลวง เขตสวนหลวง กรุงเทพมหานคร 10250 ติดต่อกับคุณพิมพ์รต พิพัฒนกุล (02) 763-2752 , คุณจุฑามาศ ประสพสันติ์ (02) 763-2600 Ext. 2402 Fax. (02) 763-2754 หรือ E-mail: JEDT@tni.ac.th

References

S. Fotouhi, S. Asadi, and M. W. Kattan, “A comprehensive data level analysis for cancer diagnosis on imbalanced data,” J. Biomed. Inform., vol. 90, Feb. 2019, Art. no. 103089, doi: 10.1016/j.jbi.2018.12.003.

N. M. Mqadi, N. Naicker, and T. Adeliyi, “Solving misclassification of the credit card imbalance problem using near miss,” Math. Probl. Eng., vol. 2021, Jul. 2021, Art. no. 7194728, doi: 10.1155/2021/7194728.

W. Kesornsit, V. Lorchirachoonkul, and J. Jitthavech, “Imbalanced data problem solving in classification of diabetes patients,” (in Thai), KKU Res. J. (Graduate Studies), vol. 18, no. 3, pp. 11–21, 2018.

A. Fernández, S. García, M. Galar, R. C. Prati, B. Krawczyk, and F. Herrera, Learning from Imbalanced Data Sets. Cham, Switzerland: Springer, 2018.

H. Yu, J. Ni, and J. Zhao, “ACOSampling: An ant colony optimization-based undersampling method for classifying imbalanced DNA microarray data,” Neurocomputing, vol. 101, pp. 309–318, 2013.

V. López, I. Triguero, C. J. Carmona, S. García, and F. Herrera, “Addressing imbalanced classification with instance generation techniques: IPADE-ID,” Neurocomputing, vol. 126, pp. 15–28, 2014.

H.-J. Kim, N.-O. Jo, and K.-S. Shin, “Optimization of cluster-based evolutionary undersampling for the artificial neural networks in corporate bankruptcy prediction,” Expert Syst. Appl., vol. 59, pp. 226–234, 2016.

J. Li et al. “Adaptive swarm balancing algorithms for rare-event prediction in imbalanced healthcare data,” PloS One, vol. 12, no. 7, 2017, Art. no. e0180830, doi: 10.1371/journal.pone.0180830.

V. Kumar and D. Kumar, “Binary whale optimization algorithm and its application to unit commitment problem,” Neural. Comput. Appl., vol. 32, no. 7, pp. 2095–2123, 2020.

M. M. Mafarja and S. Mirjalili, “Hybrid whale optimization algorithm with simulated annealing for feature selection,” Neurocomputing, vol. 260, pp. 302–312, 2017.

A. G. Hussien, A. E. Hassanien, E. H. Houssein, S. Bhattacharyya, and M. Amin, “S-shaped binary whale optimization algorithm for feature selection,” in Recent Trends in Signal and Image Processing (Advances in Intelligent Systems and Computing), vol 727, S. Bhattacharyya, A. Mukherjee, H. Bhaumik, S. Das, K. Yoshida Eds., Singapore, Singapore: Springer, 2019, pp. 79–87.

G. I. Sayed, A. Darwish, and A. E. Hassanien, “Binary whale optimization algorithm and binary moth flame optimization with clustering algorithms for clinical breast cancer diagnoses,” J. Classif., vol. 37, no. 1, pp. 66–96, 2020.

A. G. Hussien, A. E. Hassanien, E. H. Houssein, M. Amin, and A. T. Azar, “New binary whale optimization algorithm for discrete optimization problems,” Eng. Optim., vol. 52, no. 6, pp. 945–959, 2020.

D. W. Aha, D. Kibler, and M. K. Albert, “Instance-based learning algorithms,” Mach. Learn., vol. 6, no. 1, pp. 37–66, 1991.

C. Cortes and V. Vapnik, “Support-vector networks,” Mach. Learn., vol. 20, no. 3, pp. 273–297, 1995.

R. Akbani, S. Kwek, and N. Japkowicz, “Applying support vector machines to imbalanced datasets,” in Proc. Mach. Learn.: ECML 2004: 15th Eur. Conf. Mach. Learn., Pisa, Italy, Sep. 2004, pp. 39–50.

S. Mishra, “Handling imbalanced data: SMOTE vs. random undersampling,” Int. Res. J. Eng. Technol., vol. 4, no. 8, pp. 317–320, 2017.

The Imbalanced-learn Developers. “ClusterCentroids.” IMBALANCED-LEARN.org. https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.ClusterCentroids.html (accessed Mar. 3, 2022).

J. Zhang and I. Mani, “kNN approach to unbalanced data distributions: A case study involving information extraction,” presented at ICML'2003 Workshop on Learning from Imbalanced Data Sets (II), Washington, DC, USA, Aug. 21, 2003.

A. Orriols-Puig and E. Bernadó-Mansilla, “Evolutionary rule-based systems for imbalanced data sets,” Soft Comput. vol. 13, no. 3, pp. 213–225, 2009.

S. Mirjalili and A. Lewis, “The whale optimization algorithm,” Adv. Eng. Softw., vol. 95, pp. 51–67, 2016.

J. S. Akosa, “Predictive accuracy: A misleading performance measure for highly imbalanced data,” presented at the SAS Global Forum 2017, Orlando, FL, USA, Apr. 2–5, 2017, Paper 942–2017.

D. Chicco and G. Jurman, “The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation,” BMC Genomics, vol. 21, no. 1, pp. 1–13, 2020.

J. Cohen, “A coefficient of agreement for nominal scales,” Educ. Psychol. Meas., vol. 20, no. 1, pp. 37–46, 1960.

T. Fawcett, “An introduction to ROC analysis,” Pattern Recognit. Lett., vol. 27, no. 8, pp. 861–874, 2006.

scikit-learn 1.2.2: Precision-Recall. (2023). [Online]. Available: https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html

K. Battula, “Research of machine learning algorithms using K-fold cross validation,” Int. J. Eng. Adv. Technol., vol. 8, no. 6S, pp. 215–218, 2021.

Imbalanced data sets, KEEL, 2011. [Online]. Available: http://www.keel.es/

fetch_datasets, The imbalanced-learn developers, 2018. [Online]. Available: https://imbalanced-learn.org/stable/references/generated/imblearn.datasets.fetch_datasets.html

Article Sidebar

Main Article Content

บทคัดย่อ

Article Details

References