การปรับปรุงประสิทธิภาพในการจำแนกภาพด้วยโครงข่ายประสาทแบบคอนโวลูชันโดยใช้เทคนิคการเพิ่มภาพ

Main Article Content

Pimpa Cheewaprakobkit

บทคัดย่อ

        การจำแนกภาพเป็นหนึ่งในความท้าทายสำหรับมนุษย์และคอมพิวเตอร์เพราะเป็นงานที่ต้องอาศัยการวิเคราะห์ นักวิจัยพยายามที่จะแก้ปัญหานี้ในหลายๆ ด้าน โครงข่ายประสาทเทียมแบบคอนโวลูชัน (Convolutional neural network: CNN) ได้ถูกนำมาใช้กันอย่างแพร่หลายในการรับรู้ภาพการจำแนกภาพและการตรวจจับวัตถุ ในกระบวนการของ CNN โมเดล จะมีการสอนให้เครื่องเรียนรู้และทดสอบ บทความนี้มีวัตถุประสงค์เพื่อปรับปรุงประสิทธิภาพในการจำแนกภาพด้วยโครงข่ายประสาทแบบคอนโวลูชันโดยใช้เทคนิคการเพิ่มภาพ และเปรียบเทียบค่าความแม่นยำของเทคนิคการสร้างภาพเทียมแบบต่างๆ ข้อมูลที่ใช้ในการทดลองนี้รวบรวมจาก Canada Institute for Advanced Research (CIFAR-10) ซึ่งมีทั้งหมด 60,000 ภาพ แต่ละภาพมีขนาด 32x32 พิกเซล แบ่งเป็น 10 หมวด ในรอบแรกของการฝึกสอนให้คอมพิวเตอร์เรียนรู้ จะใช้วิธี 10- fold Cross Validation ในการแบ่งข้อมูล 50,000 ภาพ สำหรับการฝึกสอนและ 10,000 ภาพเพื่อทดสอบ ในรอบที่ 2 ทำการสุ่มภาพจากทุกหมวดมาเพื่อสร้างภาพเทียม โดยจะสุ่มใช้เทคนิคการปรับสีของภาพ การหมุนภาพ การย่อ ขยายภาพ หรือการกลับด้านของภาพ อย่างใดอย่างหนึ่งในแต่ละภาพ จนได้ภาพใหม่จำนวน 10,000 ภาพ รวมกับของเดิม 50,000 ภาพ รวมทั้งสิน 60,000 ภาพ ทำการฝึกสอนใหม่ 300 รอบ ผลการทดลองพบว่าการใช้เทคนิคการเพิ่มภาพ ด้วยการสร้างภาพเทียมจะช่วยให้ประสิทธิภาพในการจำแนกภาพแม่นยำสูงขึ้นจาก 84.79% เป็น 87.57%

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

N. Dalal, and B. Triggs, “HISTOGRAMS OF ORIENTED GRADIENTS FOR HUMAN DETECTION,” IEEE Computer Society Conference On Computer Vision And Pattern Recognition, vol. 1, pp. 886–893, 2005.

M. A. Tanner, and W. H. Wong, “The Calculation of Posterior Distributions By Data Augmentation,” Journal Of The American Statistical Association, vol. 82 NO. 398, pp.528–540, 1987.

G. E. Hinton, S. Osindero, and Y.W. Teh, “A FAST LEARNING ALGORITHM FOR DEEP BELIEF NETS,” NEURAL COMPUTATION, vol.18, no.7, pp.1527 –1554, 2006.

Z. Zafrulla, H. Brashear, n T. Starner, H. Hamilton, and P. Presti, “American Sign Language Recognition With the Kinect,” ICMI '11 Proceedings of the 13th international conference on multimodal interfaces, pp. 279-286, 2011.

T. Siriborvornratanakul, “Five questions with Deep Learning: Automatic cucumber sorting system from pictures @Cucumber Farm in Japan (Part 2/2).”[Online]. Available: https://mgronline.com/daily/detail/9590000091327 [Accessed: 20-Dec-2018].

Z. Hussain, F. Gimenez, D. Yi and D. Rubin. “Differential Data Augmentation Techniques for Medical Imaging Classification Tasks,” AMIA Annual Symposium Proceedings Archive, pp. 979-984, 2018.

C. Niyomthum, “What is CNN?.” [Online]. Available: https://medium.com/@thebear19/neural-network-101-cnn-with-tensorflow-fd5d515e979b. [Accessed: 04-Oct-2018].

Mc. Ai, “Let's see how CNN Thinks!!!.” [Online]. Available: https://mc.ai/มาลองดูวิธีการคิดของ-cnn-ก/. [Accessed: 10-Nov-2018].

M. D. Bloice, C. Stocker, and A. Holzinger, “Augmentor: An Image Augmentation Library for Machine Learning,” The Journal of Open Source Software, vol.2. pp. 1-5, 2017.

C. Shorten, “Image Augmentation Examples in Python.” [Online]. Available: https://towardsdatascience.com/image-augmentation-examples-in-python-d552c26f2873. [Accessed: 10-Nov-2018].

P. Bee, “How to install Keras + Tensorflow (GPU version) on windows 10.” [Online]. Available: https://medium.com/boobeejung/วิธีการติดตั้ง-keras-tensorflow-gpu-version-บน-windows-10-บทความนี้เขียนขึ้นเพื่อหลายๆ-คนที่กำ-e8e3f5105baa. [Accessed: 04-Oct-2018].

K. Jarrett, K. Kavukcuoglu, M. Ranzato and Y. LeCun, “What Is The Best Multi-Stage Architecture for Object Recognition?,” in 2009 IEEE 12th International Conference On Computer Vision, pp. 2146–2153, 2009.