การพัฒนาโมเดลการจำแนกรูปภาพตามความหมายจากภาษาธรรมชาติ ด้วยปัญญาประดิษฐ์เชิงสร้างสรรค์
Main Article Content
บทคัดย่อ
งานวิจัยนี้มุ่งพัฒนาโมเดลการจำแนกรูปภาพด้วยเจเนอเรทีฟ แอดเวอร์ซาเรียล เน็ตเวิร์ค (จีเอเอ็น) เพื่อปรับปรุงการเรียกค้นรูปภาพและแปลความหมายของภาพ โดยใช้ภาษาธรรมชาติซึ่งเทคโนโลยีนี้จะสร้างเนื้อหาใหม่โดยเรียนรู้จากข้อมูลที่มีอยู่และสร้างผลลัพธ์ใหม่ที่คล้ายคลึงกับต้นแบบ กลุ่มตัวอย่างที่ใช้ในงานวิจัยประกอบด้วยข้อมูลจากชุดข้อมูลฟริกเกอร์ 30 เค ทั้งหมด 158,915 รายการ ซึ่งเป็นรูปภาพและคำบรรยายภาษาธรรมชาติ โดยสุ่มตัวอย่างด้วยสมการโครานที่ค่าความเชื่อมั่น 95% และค่าความคลาดเคลื่อน 5% ได้กลุ่มตัวอย่าง 384 รายการ ข้อมูลถูกแบ่งสำหรับการฝึกและทดสอบโมเดลในอัตราส่วน 80/20 เพื่อเพิ่มประสิทธิภาพในการแปลความหมายของภาพ การประเมินผลของโมเดลวัดจากความคล้ายคลึงระหว่างผลลัพธ์ที่เอไอพยากรณ์และภาพที่มีคำบรรยาย พร้อมตรวจสอบโดยผู้เชี่ยวชาญด้านเ ผลทดสอบพบว่าโมเดลมีค่าความแม่นยำ 82% การเรียกคืน 78% และความถูกต้อง 80% ซึ่งบ่งชี้ถึงประสิทธิภาพของโมเดลในการแปลความหมายภาพตามคำบรรยายภาษาธรรมชาติ ผลการวิจัยนี้สามารถประยุกต์ใช้เชิงพาณิชย์ได้ เช่น การจัดหมวดหมู่รูปภาพอัตโนมัติในสื่อสังคม หรือการค้นหารูปภาพในคลังข้อมูลขนาดใหญ่ การพัฒนาโมเดลในอนาคตควรมุ่งเน้นการปรับปรุงค่าการเรียกคืน เพื่อเพิ่มความสมบูรณ์และความตรงกับความต้องการของผู้ใช้มากยิ่งขึ้น
Article Details

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
- เนื้อหาต้นฉบับที่ปรากฏในวารสารเป็นความรับผิดชอบของผู้เขียน ทั้งนี้ไม่รวมความผิดพลาดอันเกิดจากเทคนิคการพิมพ์
- ลิขสิทธิ์ต้นฉบับที่ได้รับการตีพิมพ์ในวารสารวิชาการ ซายน์เทค มรภ.ภูเก็ต ถือเป็นกรรมสิทธิ์ของวารสารวิชาการ ซายน์เทค มรภ.ภูเก็ต
References
Goodfellow, I., Bengio, Y., & Courville, A. (2023). Deep Learning. MIT Press.
Alif, M. D. N., & Fahrudin, N. F. (2024). Performance Analysis of Oversampling and Undersampling on Telco Churn Data Using Naive Bayes, SVM And Random Forest Methods (pp 1–13). In E3S Web of Conferences, 484, 02004.
Zhang, Y., Wang, S., & Li, H. (2023). Enhancing image classification with convolutional neural networks: a comprehensive review. Journal of Computer Vision and Image Processing, 45(2), 123–140.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes (pp 1–14).
In The International Conference on Learning Representations (ICLR) 2014.
Papers with Code. (2024). Flickr30k Dataset. [Online], Retrieved from https://paperswithcode.com/dataset/flickr30k (7 August 2024).
จักรินทร์ สันติรัตนภักดี และ ศุภกฤษฏิ์ นิวัฒนากูล. (2567). แบบจำลองการจำแนกรูปภาพตามความหมาย ได้รับการฝึกฝนสำหรับการเรียกค้นรูปภาพโดยใช้ภาษาธรรมชาติ. วารสารวิชาการซายน์เทค มรภ.ภูเก็ต, 8(1), 68–82.
Vivekananthan, S. (2024). Comparative analysis of generative models: Enhancing image synthesis with VAEs, GANs and stable diffusion. arXiv, 2408.08751.
Hassan, R. T., & Ahmed, N. S. (2023). Evaluating of efficacy semantic similarity methods for comparison of academic thesis and dissertation texts. Science Journal of University of Zakho, 11(3), 396–402.
Nattawuttisit, S., & Chantron, P. (2024). Revolutionizing AI driven innovations in gemstone classification: a synergistic approach integrating visual and semantic NLP techniques. Nanotechnology Perceptions, 20(4), 333–345.