การพัฒนาโมเดลการจำแนกรูปภาพตามความหมายจากภาษาธรรมชาติ ด้วยปัญญาประดิษฐ์เชิงสร้างสรรค์

Main Article Content

สุขสวัสดี ณัฎฐวุฒิสิทธิ์

บทคัดย่อ

งานวิจัยนี้มุ่งพัฒนาโมเดลการจำแนกรูปภาพด้วยเจเนอเรทีฟ แอดเวอร์ซาเรียล เน็ตเวิร์ค (จีเอเอ็น) เพื่อปรับปรุงการเรียกค้นรูปภาพและแปลความหมายของภาพ โดยใช้ภาษาธรรมชาติซึ่งเทคโนโลยีนี้จะสร้างเนื้อหาใหม่โดยเรียนรู้จากข้อมูลที่มีอยู่และสร้างผลลัพธ์ใหม่ที่คล้ายคลึงกับต้นแบบ กลุ่มตัวอย่างที่ใช้ในงานวิจัยประกอบด้วยข้อมูลจากชุดข้อมูลฟริกเกอร์ 30 เค ทั้งหมด 158,915 รายการ ซึ่งเป็นรูปภาพและคำบรรยายภาษาธรรมชาติ โดยสุ่มตัวอย่างด้วยสมการโครานที่ค่าความเชื่อมั่น 95% และค่าความคลาดเคลื่อน 5% ได้กลุ่มตัวอย่าง 384 รายการ ข้อมูลถูกแบ่งสำหรับการฝึกและทดสอบโมเดลในอัตราส่วน 80/20 เพื่อเพิ่มประสิทธิภาพในการแปลความหมายของภาพ การประเมินผลของโมเดลวัดจากความคล้ายคลึงระหว่างผลลัพธ์ที่เอไอพยากรณ์และภาพที่มีคำบรรยาย พร้อมตรวจสอบโดยผู้เชี่ยวชาญด้านเ ผลทดสอบพบว่าโมเดลมีค่าความแม่นยำ 82% การเรียกคืน 78% และความถูกต้อง 80% ซึ่งบ่งชี้ถึงประสิทธิภาพของโมเดลในการแปลความหมายภาพตามคำบรรยายภาษาธรรมชาติ ผลการวิจัยนี้สามารถประยุกต์ใช้เชิงพาณิชย์ได้ เช่น การจัดหมวดหมู่รูปภาพอัตโนมัติในสื่อสังคม หรือการค้นหารูปภาพในคลังข้อมูลขนาดใหญ่ การพัฒนาโมเดลในอนาคตควรมุ่งเน้นการปรับปรุงค่าการเรียกคืน เพื่อเพิ่มความสมบูรณ์และความตรงกับความต้องการของผู้ใช้มากยิ่งขึ้น

Article Details

How to Cite
ณัฎฐวุฒิสิทธิ์ ส. (2024). การพัฒนาโมเดลการจำแนกรูปภาพตามความหมายจากภาษาธรรมชาติ ด้วยปัญญาประดิษฐ์เชิงสร้างสรรค์. วารสารวิชาการ ซายน์เทค มรภ.ภูเก็ต, 8(2), 79–90. สืบค้น จาก https://ph01.tci-thaijo.org/index.php/pkruscitech/article/view/257817
บท
บทความวิจัย

References

Goodfellow, I., Bengio, Y., & Courville, A. (2023). Deep Learning. MIT Press.

Alif, M. D. N., & Fahrudin, N. F. (2024). Performance Analysis of Oversampling and Undersampling on Telco Churn Data Using Naive Bayes, SVM And Random Forest Methods (pp 1–13). In E3S Web of Conferences, 484, 02004.

Zhang, Y., Wang, S., & Li, H. (2023). Enhancing image classification with convolutional neural networks: a comprehensive review. Journal of Computer Vision and Image Processing, 45(2), 123–140.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.

Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes (pp 1–14).

In The International Conference on Learning Representations (ICLR) 2014.

Papers with Code. (2024). Flickr30k Dataset. [Online], Retrieved from https://paperswithcode.com/dataset/flickr30k (7 August 2024).

จักรินทร์ สันติรัตนภักดี และ ศุภกฤษฏิ์ นิวัฒนากูล. (2567). แบบจำลองการจำแนกรูปภาพตามความหมาย ได้รับการฝึกฝนสำหรับการเรียกค้นรูปภาพโดยใช้ภาษาธรรมชาติ. วารสารวิชาการซายน์เทค มรภ.ภูเก็ต, 8(1), 68–82.

Vivekananthan, S. (2024). Comparative analysis of generative models: Enhancing image synthesis with VAEs, GANs and stable diffusion. arXiv, 2408.08751.

Hassan, R. T., & Ahmed, N. S. (2023). Evaluating of efficacy semantic similarity methods for comparison of academic thesis and dissertation texts. Science Journal of University of Zakho, 11(3), 396–402.

Nattawuttisit, S., & Chantron, P. (2024). Revolutionizing AI driven innovations in gemstone classification: a synergistic approach integrating visual and semantic NLP techniques. Nanotechnology Perceptions, 20(4), 333–345.