ระบบสืบค้นสำหรับประโยคภาษาไทยใช้วิธีถ่วงน้ำหนักช่วงข้อความที่สั้นที่สุด
Main Article Content
Abstract
ระบบสืบค้นเป็นระบบคำถาม-คำตอบที่ให้ความสะดวกแก่ผู้ใช้ สำหรับการเข้าถึงสารสนเทศที่เป็นข้อความในเอกสารอิเล็กทรอนิกส์ด้วยการรับคำขอจากผู้ใช้ในรูปแบบประโยคคำถามที่เป็นภาษาธรรมชาติ และได้รับผลลัพธ์เป็นคำตอบที่กระชับรวบรัด ซึ่งการค้นคืนเอกสารและการสกัดข้อความสั้นเป็นส่วนที่มีผลกระทบต่อประสิทธิภาพของการค้นหาคำตอบ ในงานวิจัยนี้จึงได้ใช้วิธีถ่วงน้ำหนักช่วงข้อความที่สั้นที่สุดมาเพิ่มประสิทธิภาพการจัดลำดับเอกสารที่ถูกค้นคืนและการสกัดข้อความสั้นที่น่าจะมีคำตอบที่ต้องการอยู่ เพื่อลดความยุ่งยากในการวิเคราะห์เชิงภาษาศาสตร์โดยเฉพาะเมื่อใช้กับข้อความภาษาไทยที่มีรูปแบบและโครงสร้างทางภาษาที่ไม่แน่นอน ผลการประเมินประสิทธิภาพได้ค่าลำดับคำตอบส่วนกลับเฉลี่ย (MRAR) เท่ากับ 0.81 และเพื่อเพิ่มประสิทธิภาพการเลือกคำตอบจึงได้พัฒนาระบบการแบ่งประโยคภาษาไทย โดยใช้เทคนิคกลไกการเรียนรู้ด้วยวิธีซัพพอร์ตเวกเตอร์แมชชีน ซึ่งจากการทดลองกับคลังข้อมูลออร์คิดด้วยวิธี 10-fold cross validation พบว่าสามารถจำแนกประเภทช่องว่างและแบ่งประโยคภาษาไทยถูกต้องเฉลี่ย 92.46% และ 85.92% ตามลำดับ