การจำแนกข้อมูลขนาดใหญ่โดยใช้การจัดกลุ่มด้วยวิธีเคมีนและวิธีการเรียนรู้เชิงลึก

Main Article Content

Nuntuschaporn Senawong
Supawadee Wichitchan
Orawich Kumphon

บทคัดย่อ

ในการจำแนกประเภทข้อมูลที่มีขนาดใหญ่ ปัญหาที่พบคือเวลาที่ใช้ในการประมวลผลนาน และต้องใช้ข้อมูลฝึก (Training Data) เป็นจำนวนมากเพื่อให้การจำแนกประเภทมีประสิทธิภาพความแม่นยำสูง เพื่อแก้ไขปัญหานี้ผู้วิจัยจึงศึกษาวิธีการสำหรับการจำแนกข้อมูลขนาดใหญ่ เพื่อลดปัญหาการใช้ข้อมูลฝึกจำนวนมาก แต่ยังคงมีประสิทธิภาพในการจำแนกประเภทสูง โดยจะทำการลดขนาดข้อมูลฝึกด้วยการรวมเทคนิคการจัดกลุ่มของวิธีเคมีน (K-means) และวิธีการเรียนรู้เชิงลึก (Deep Learning) ในการศึกษาประสิทธิภาพของวิธีการที่นำเสนอพิจารณาจากค่าความแม่นยำและค่า AUC นอกจากนี้ได้ทำการเปรียบเทียบกับวิธีการเรียนรู้เชิงลึกแบบเดิมที่ใช้ข้อมูลฝึกขนาด 80% และ 90% ของข้อมูลทั้งหมด และกรณีที่ใช้ข้อมูลฝึกจำนวนเท่ากัน ผลการศึกษาพบว่าวิธีการที่นำเสนอสามารถลดขนาดของข้อมูลฝึกได้อย่างมาก โดยใช้ข้อมูลฝึกน้อยกว่า 1% ของขนาดข้อมูลทั้งหมด แต่ให้ค่าความแม่นยำเฉลี่ยและค่า AUC เฉลี่ยของการจำแนกประเภทสูง โดยในกรณีที่ข้อมูลมีการแจกแจงปรกติ ขนาด 1,000,000×5 (N×Feature) วิธีการที่นำเสนอให้ค่าความแม่นยำเฉลี่ยสูงถึง 97.4878 % และให้ค่า AUC เฉลี่ยสูงถึง 0.9735 และเมื่อเปรียบเทียบกับผลการจำแนกประเภทโดยใช้วิธีการเรียนรู้เชิงลึกที่ใช้ข้อมูลฝึก 80% และ 90% ของข้อมูลทั้งหมด พบว่าประสิทธิภาพในการจำแนกประเภทสูงใกล้เคียงกัน โดยที่วิธีการที่นำเสนอใช้เวลาในการจำแนกประเภทน้อยกว่าวิธีการเรียนรู้เชิงลึกประมาณ 2 – 4 เท่า

Article Details

บท
บทความวิจัย ด้านวิทยาศาสตร์ประยุกต์

References

N. Suradet and W. Yathongkhum, “Supervised learning for demospongiae identification using graph mining technique,” UTK Research Journal, vol. 13, no. 1, pp. 167–179, 2019 (in Thai).

T. Tang, S. Chen, M. Zhao, W. Huang, and J. Luo, “Very large-scale data classification based on K-means clustering and multi-kernel SVM,” Soft Computing, vol. 23, no. 11, pp. 3793–3801, 2018.

K. Boonkiatpong and S. Sinthupinyo “Applying multiple neural networks on large scale data,” M.S. thesis, Graduate School, Chulalongkorn University, 2011 (in Thai).

K. Kowsrihawat, “A criminal case outcome and issue prediction model on Thai supreme court cases using deep learning techniques,” M.S. thesis, Graduate School, Chulalongkorn University, 2018 (in Thai).

W. Hirun and T. Pobutdee, “Trip attraction model using social network data and deep learning,” Sripatum Review of Science and Technology, vol. 10, pp. 146–157, 2019 (in Thai).

W. Boonpook, Y. Tan, Y. Ye, P. Torteeka, K. Torsri, and S. Dong, “A deep learning approach on road detection from unmanned aerial vehicle-based images in rural road monitoring,” Sensors, vol. 18, no. 11, pp. 3921, 2018.

N. Pholberdee and P. Taeprasartsiit, “Woundregion segmentation from image by using deep learning and various data augmentation methods,” M.S. thesis, Graduate School, Silpakorn University, 2018 (in Thai).

M. S. Kim, “Robust, scalable anomaly detection for large collections of images,” presented at International Conference on Social Computing, Alexandria, VA, USA, September 8–14, 2013.

T. Tang, S. Chen, M. Zhao, W. Huang, and J. Luo, “Very large-scale data classification based on K-means clustering and multi-kernel SVM,” Soft Computing, vol. 23, no. 1, pp. 3793–3801, 2018.

Y. Yoru and T. Hikmet Karakoc, “Application of artificial neural network (ANN) method to exergy analysis of thermodynamic systems,” presented at International Conference on Machine Learning and Applications, Miami Beach, FL, USA, 2009.

S. Nissen. (2003, October). Implementation of a Fast Artificial Neural Network. Department of Computer Science, University of Copenhagen. [Online]. Available: http://fann.sourceforge. net/report/

D.W. Hosmer and S. Lemeshow, Applied Logistic Regression. John Wiley & Sons, Inc., 2013, pp. 162.

M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for classification tasks,” Information Processing & Management, vol. 45, no. 4, pp. 427–437, 2009.

A. I. Marqués, V. García, and J. S. Sánchez, “On the suitability of resampling techniques for the class imbalance problem in credit scoring,” Journal of the Operational Research Society, vol. 64, pp. 1060–1070, 2013.

P. Wiriyathammabhum, “An approach to basis selection for dimensional reduction techniques,” M.S. thesis, Graduate School, Chulalongkorn University, 2009 (in Thai).