แนวคิดและความท้าทายในการพัฒนาการค้นคืนข้อมูลข้ามภาษาไทย-อังกฤษ

Main Article Content

ไกรศักดิ์ เกษร

บทคัดย่อ

ปัจจุบันเอกสารที่กระจายอยู่ทั่วไปในอินเทอร์เน็ตมีความหลากหลายทางด้านภาษา ข้อดีคือผู้ใช้มีข้อมูลที่หลากหลายและสามารถนำไปใช้ให้เป็นประโยชน์ต่อการศึกษาหรือการทำงาน นอกจากนี้ผู้ใช้ยังสามารถใช้ข้อมูลเหล่านี้มาตรวจสอบและยืนยันความถูกต้องซึ่งกันและกันได้ แต่ข้อเสียที่ตามมาคือผู้ใช้ต้องทำการค้นหาข้อมูลโดยใช้คำสำคัญที่เป็นภาษาเดียวกับเอกสารเท่านั้นจึงจะได้ผลลัพธ์ตามที่ต้องการ นอกจากนี้ผู้ใช้อาจจะไม่รู้จะใช้คำศัพท์ใดที่จะอธิบายถึงข้อมูลที่ตนเองต้องการได้ ซึ่งมีผลทำให้ระบบการค้นคืนข้อมูลไม่สามารถค้นหาเอกสารที่ผู้ใช้ต้องการได้อย่างถูกต้องแม่นยำ เนื่องจากลักษณะของคำศัพท์ในแต่ละภาษามีความหมายที่ไม่ตายตัว โดยปกติคำหนึ่งคำสามารถมีหลายความหมาย เรียกว่า “Polysemy” หรือคำหลายคำสามารถหมายถึงสิ่งเดียวกันเรียกว่า
“Synonym” ระบบค้นหาสารสนเทศในปัจจุบันยังมีประสิทธิภาพต่ำในการแก้ปัญหาเหล่านี้ ด้วยความสำคัญของปัญหาดังกล่าวนักวิจัยจึงมีแนวคิดที่จะพัฒนาวิธีการค้นคืนสารสนเทศข้ามภาษา (Cross-Language Information Retrieval-CLIR) ขึ้น เพื่อช่วยให้ผู้ใช้ที่เป็นคนไทยได้ข้อมูลที่ตรงกับสิ่งที่ผู้ใช้ต้องการมากที่สุด ถึงแม้จะมีข้อจำกัดในเรื่องของภาษาหรือคำศัพท์ภาษาอังกฤษที่จะใช้ในคิวรี่ (Query) ก็ตาม แนวความคิดนี้ถือเป็นแนวโน้มใหม่สำหรับระบบค้นหาสารสนเทศ (Information Retrieval-IR) และมีศักยภาพสูงในการพัฒนาต่อยอดในเชิงพาณิชย์ให้กับระบบค้นหาข้อมูลเช่น Google หรือ Bing ได้ในบทความนี้นำเสนอถึงแนวคิดของ CLIR และสรุปความท้าทายสำหรับนักวิจัยที่ต้องการจะสร้างระบบ CLIR สำหรับภาษาไทยและอังกฤษขึ้นมา

Article Details

รูปแบบการอ้างอิง
เกษร ไ. (2013). แนวคิดและความท้าทายในการพัฒนาการค้นคืนข้อมูลข้ามภาษาไทย-อังกฤษ. วารสารวิทยาศาสตร์ มข., 41(1), 121–133. สืบค้น จาก https://ph01.tci-thaijo.org/index.php/KKUSciJ/article/view/249084
ประเภทบทความ
บทความวิชาการ