เทคนิคการค้นคืนสารสนเทศข้ามภาษา (ไทย-อังกฤษ) โดยใช้ออนโทโลยี

Main Article Content

ฉัตรชัย อินทรประพันธ์
ไกรศักดิ์ เกษร

Abstract

ในยุคแห่งระบบข้อมูลสารสนเทศ เอกสารต่างๆ ได้ กระจายอยู่ทั่วไปบนระบบเครือข่ายอินเทอร์เน็ตและมี แนวโน้มที่จะเพิ่มมากขึ้นอย่างรวดเร็วต่อไปในอนาคต เอกสารเหล่านี้ถูกเขียนขึ้นโดยใช้ภาษาต่างๆ กัน ถึงแม้ว่า ระบบค้นคืนสารสนเทศ (Information Retrieval) ในปัจจุบัน จะมีประสิทธิภาพสูงมากในการค้นคืนข้อมูล อย่างไรก็ตาม ระบบค้นคืนสารสนเทศเหล่านี้จะค้นหาเฉพาะเอกสารที่ถูก เขียนโดยใช้ภาษาเดียวกับคำสำคัญ (Keywords) เท่านั้น ดังนั้นงานวิจัยนี้ได้นำเสนอวิธีการสืบค้นสารสนเทศข้าม ภาษาสำหรับเอกสารภาษาไทยและภาษาอังกฤษ แนวคิด สำคัญของงานวิจัยนี้ประกอบด้วย 2 ส่วนหลัก คือ 1) การใช้ ออนโทโลยีในการทำดัชนีเอกสารเพื่อรองรับการค้นคืนข้อมูล ข้ามภาษาและใช้โครงสร้างของออนโทโลยีช่วยในการค้นคืน ข้อมูลเชิงความหมาย (Semantic Search) และ 2) พัฒนาวิธี การในการจัดเรียงข้อมูล (Ranking) ผลลัพธ์ที่ได้จากการ ค้นคืนข้อมูลสำหรับระบบค้นหาข้ามภาษา ผลการทดลอง แสดงให้เห็นว่าระบบสามารถค้นหาเอกสารได้ทั้งเอกสาร ภาษาไทยและภาษาอังกฤษโดยใช้คำสำคัญเพียงภาษาเดียว เท่านั้นและสามารถปรับปรุงค่ารีคอล (Recall) และค่า พรีซีชั่น (Precision) ให้สูงขึ้น

 

Ontology-based Technique for Cross-Language (Thai-English) Information Retrieval

Chatchai Inparaprapana and Kraisak Kesorn

There are billions of documents distributed in the Internet and these numbers trend to increase dramatically in the future. These documents are written using several languages. Although the existing search engines obtain high retrieval performance, the problem is the Information Retrieval System will retrieve only desire documents written by the similar language in the query. In other words, the search engine is unable to find relevant documents written by different languages from the query. This paper presents an ontology-base technique for cross-language information retrieval (CLIR). The novelty of this paper are 1) using an ontology to store information in the hierarchical structure in order to provide semantic search; 2) ranking technique of results of cross-language information retrieval by modifying cosine similarity formula by taking a language weight into account. The experiment results show that the proposed technique allows the system search relevant documents that are written a different language from the query and, thus, it can improve the precision and recall significantly.

Article Details

Section
บทความวิจัย