Optimizing Document Retrieval by Measurement Resemblance Between Semantic Word Methods

Main Article Content

Kamonwan Ratchatawetchakul
Apichai Sarnthong
Weerayut Ratchatawetchakul
Yongyut Ratchatawetchakul

Abstract

The aims of article to present the method for measuring semantic similarity between words. Data test are documents in the computer domain from ThaiLIS : Thai Library Integration System 50 documents and prepare a Dublin Core metadata for documentation such as Title, Keyword / Subject, Description / Abstract and  Source. Create ontology on Web Ontology Language (OWL) by the word form https://technology.in.th/thesaurus about 402 words that is thesaurus website by National Science and Technology Development Agency. This research use Dijkstra algorithm for shorted part between node to node relate by Edge and Node such as skos:prefLabel , skos:broader, skos:narrower, skos:related and skos:altLabel. The results showed that method of measuring semantic similarity between words by shortest path method proposed by the researcher shows efficiency more than   cosine similarity, accuracy of retrieval with F-measure and MRR. Cosine Similarity measurement and the results of the retrieval meet users' needs.

Article Details

How to Cite
Ratchatawetchakul, K., Sarnthong, A., Ratchatawetchakul, W., & Ratchatawetchakul, Y. (2020). Optimizing Document Retrieval by Measurement Resemblance Between Semantic Word Methods. Journal of Applied Informatics and Technology, 2(1), 19–29. https://doi.org/10.14456/jait.2020.2
Section
Research Article

References

พิลาวัณย์ พลับรู้การ และกฤษณะ ไวยมัย. (2544). รายงานการวิจัยเรื่องการวัดความคล้ายคลึงระหว่าง เอกสารโดยใช้แนวทางด้านความหมาย. รายงานวิจัยระบบคอมพิวเตอร์และเครือข่ายสื่อสาร คณะ วิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์.

ศุภกฤษฏิ์ นิวัฒนากูล. (2556). การเข้าถึงความรู้ ทางการเกษตรด้วยเทคโนโลยีเว็บเชิงความหมาย. รายงานการวิจัย สาขาวิชาเทคโนโลยี สารสนเทศ มหาวิทยาลัยเทคโนโลยีสุรนารี.

Craswell, N., & Hawking, D.(2002). Overview of the TREC-2002 web track. Technical report In Text Retrieval Conference. Gaithersburg, Maryland.

Dijkstra, E.W. (1959). A note on two problems in connexion with graphs. Numerische Mathematik, 1, 269–271

Lee, J.H. (1995). Combining multiple evidence from different properties of weighting schemes, In the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp.180-188). ACM.

McConnell, J.J. (2001). Analysis of algorithms: An active learning approach. Canada: Jones and Bartlett.

Sahami, M., Yusufali, S., & Baldonado, M.Q.W. (1998). SONIA: A service for organizing networked information autonomously. In Proceedings of The Digital Libraries.

Salton, G. (1989). Automatic text processing: The transformation, analysis and retrieval of information by computer. Addison-Wesley Publishing.

Shatkay, H., & Wibur, W.J. (2000). Finding themes in medline documents probabilistic similarity search, In Advances in Digital Libraries. IEEE.

Strasberg, H.R., Manning, C.D., Rindfleisch, T.C., & Melmon, K.L. (2000). What’s related? Generalizing approaches to related articles in medicine. In Proceedings AMIA Symp.