การวิเคราะห์อารมณ์จากใบหน้ามนุษย์แบบเวลาจริงโดยใช้เทคนิคการเรียนรู้เชิงลึกบนอุปกรณ์สมองกลฝังตัวต้นทุนต่ำ
Main Article Content
บทคัดย่อ
อารมณ์เป็นการแสดงออกทางพื้นฐานอย่างหนึ่งของมนุษย์ ซึ่งมีการแสดงออกในหลากหลายรูปแบบ เช่น จากเสียง ใบหน้า หรือท่าทาง ในการพัฒนาระบบที่มีการปฏิสัมพันธ์กับมนุษย์นั้น การรับรู้ถึงอารมณ์ที่มนุษย์ตอบสนองกับระบบกลับมานั้น จึงเป็นเรื่องที่สำคัญเป็นอย่างยิ่ง บทความนี้นำเสนอการออกแบบและพัฒนาแบบจำลองการเรียนรู้เชิงลึก YOLOv4-tiny และ YOLOv5s เพื่อวิเคราะห์อารมณ์จากใบหน้ามนุษย์ โดยแบบจำลองทำงานบนอุปกรณ์สมองกลฝังตัวต้นทุนต่ำ Jetson Nano ที่ติดตั้งกล้องในตัว จากนั้นภาพเคลื่อนไหวที่รับเข้ามาจากกล้องจะถูกตรวจจับใบหน้าแบบเวลาจริง เพื่อตีกรอบรอบใบหน้าและแสดงผลการวิเคราะห์อารมณ์ของใบหน้านั้น ซึ่งแบบจำลองสามารถจำแนกอารมณ์ทั้งหมดออกเป็น 7 อารมณ์ ได้แก่ โกรธ รังเกียจ กลัว ดีใจ เสียใจ ตกใจ และเฉยๆ โดยใช้ชุดข้อมูลภาพ RAF-DB ในการฝึกฝนและทดสอบแบบจำลองผลจากการประเมินประสิทธิภาพด้านความถูกต้องของแบบจำลอง พบว่า โดยภาพรวมแบบจำลอง YOLOv5s ให้ผลการทำงานที่ดีกว่า YOLOv4-tiny โดยค่า F1 Score ของแบบจำลอง YOLOv5s ได้คะแนน 0.806 ในขณะที่แบบจำลอง YOLOv4-tiny ได้คะแนน 0.774 สำหรับประสิทธิภาพด้านความเร็วในการประมวลผลพบว่า แบบจำลอง YOLOv5 สามารถแสดงวิดีโอได้ประมาณ 11 FPS ในขณะที่ YOLOv4-tiny สามารถแสดงผลวิดีโอได้ประมาณ 10.5 FPS
Article Details
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ลงตีพิมพ์เป็นข้อคิดเห็นของผู้เขียนเท่านั้น
ผู้เขียนจะต้องเป็นผู้รับผิดชอบต่อผลทางกฎหมายใดๆ ที่อาจเกิดขึ้นจากบทความนั้น
References
A. Freitas-Magalhães, “Facial expression of emotion,” in Encyclopedia of Human Behavior (Second Edition), V. S. Ramachandran, Ed. San Diego: Academic Press, 2012, pp. 173–183.
M. Chen, L. Zhang, and J. P. Allebach, “Learning deep features for image emotion classification,” in 2015 IEEE International Conference on Image Processing (ICIP), Sep. 2015, pp. 4491–4495.
A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Communications of the ACM, vol. 60, no. 6, pp. 84–90, 2017.
J. Machajdik and A. Hanbury, “Affective image classification using features inspired by psychology and art theory,” in Proceedings of the 18th ACM International Conference on Multimedia, 2010, pp. 83–92.
N. Mehendale, “Facial emotion recognition using convolutional neural networks (FERC),” SN Applied Sciences, vol. 2, no. 3, pp. 446, 2020,
W. Vijitkunsawat and P. Chantngarm, “Comparison of machine learning algorithm’s on self-driving car navigation using nvidia jetson nano,” presented at the 2020 17th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), Phuket, Thailand, 24–27 June, 2020 (in Thai).
P. Inthanon and S. Mungsing, “Detection of drowsiness from facial images in real-time video media using Nvidia Jetson nano,” presented at the 2020 17th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), Phuket, Thailand, 24–27 June, 2020 (in Thai).
S. Chavan, J. Ford, X. Yu, and J. Saniie, “Plant species image recognition using artificial intelligence on jetson nano computational platform,” presented at the 2021 IEEE International Conference on Electro Information Technology (EIT), Mt. Pleasant, MI, USA, 14–15 May, 2021.
Jetson Nano., (2021, Nov.). NVIDIA Developer. [Online]. Available: https://developer.nvidia. com/embedded/jetson -nano
Jetson Nano Developer Kit., (2021, Nov.). NVIDIA Developer. https://developer.nvidia.com/ embedded/jetson-nano-developer-kit
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” arXiv:1506.02640 [cs], 2022.
J. Redmon and A. Farhadi, “YOLO9000: Better, faster, stronger,” arXiv:1612.08242 [cs], 2022.
J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” arXiv:1804.02767 [cs], 2022.
A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “YOLOv4: Optimal speed and accuracy of object detection,” arXiv:2004.10934 [cs, eess], 2021.
S. Li, W. Deng, and J. Du, “Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild,” in Proceedings 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jul. 2017, pp. 2584–2593.
S. Li and W. Deng, “Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition,” IEEE Transactions on Image Processing, vol. 28, no. 1, pp. 356–370, 2019.