Development of a Thai Impolite Word Dictionary and an Algorithm for Detecting Thai Impolite Words using Multiple Patterns Inverted Lists

Main Article Content

Kanida Charungchit
Nattawut Kaewsiri
Chouvalit Khancome

Abstract

This research article presents a new concept for detecting impolite Thai words by designing a new structure for a dictionary that stores impolite words. It uses character positions instead of storing words in the traditional dictionary format. The components of each word are classified into an inversion list and stored in the dictionary using a table based on hashing principles for rapid access. The article then develops an algorithm for immediate detection of impolite words as characters are input into the system, eliminating the need for complete entry as required by previous algorithms. The new dictionary is created with a time complexity of O(W) and a space complexity of O(|gif.latex?\tiny&space;\sum|+|W|), where W is the total length of all words contained in the dictionary. Meanwhile, the time complexity for detection is O(n), where n is the length of the text input into the system. Experimental results with the developed program for detecting impolite words, relying on the new dictionary model, show significantly faster detection compared to the traditional dictionary-based approach. The new algorithm can detect impolite words in the dictionary with 100% accuracy without any errors.

Article Details

How to Cite
Charungchit, K., Kaewsiri, N., & Khancome, C. (2024). Development of a Thai Impolite Word Dictionary and an Algorithm for Detecting Thai Impolite Words using Multiple Patterns Inverted Lists. KKU Science Journal, 52(1), 106–120. https://doi.org/10.14456/kkuscij.2024.10
Section
Research Articles

References

ณัฐาศิริ เชาว์ประสิทธิ์ และสมชาย เล็กเจริญ. (2560). การพัฒนาโมเดลตรวจจับคำหยาบภาษาไทยบนสื่อออนไลน์ด้วยเทคนิคดาต้าไมน์นิง. ใน: การประชุมนำเสนอผลงานวิจัยระดับบัณฑิตศึกษา ครั้งที่ 12 ปีการศึกษา 2560. มหาวิทยาลัยรังสิต, กรุงเทพฯ. 1432 - 1441.

เถกิง พันธุ์เถกิงอมร. การใช้ภาษาในการเขียนเชิงวิชาการ. (2558). เอกสารประกอบการบรรยายในโครงการแลกเปลี่ยนเรียนรู้ด้านการเรียนการสอน ด้านการวิจัยและด้านการสนับสนุนวิชาการ สำหรับอาจารย์ คณะมนุษยศาสตร์และสังคมศาสตร์, มหาวิทยาลัยราชภัฏสงขลา. สงขลา.

นภัทร อังกูรสินธนา และปนันดา เลอเลิศยุติธรรม. (2562). กลวิธีความไม่สุภาพทางภาษาในภาษาไทย. วารสารปาริชาต 32(2): 63 - 74.

นันทวัฒน์ เนตรเจริญ และสุวัฒนา เลี่ยมประวัติ. (2558). การวิเคราะห์ข้อบกพร่องในการแปลถ้อยคำต้องห้ามของ คำระวี-ใบเตยในวรรณกรรมเรื่อง The Catcher in the Rye และแนวทางแก้ไข. ใน: การประชุมหาดใหญ่วิชาการระดับชาติ ครั้งที่ 6. มหาวิทยาลัยหาดใหญ่, สงขลา. 396 - 406.

ยุวดี พนมพรสุวรรณ. (2549). ปัญหานักเรียนพูดจาไม่ไพเราะเหมาะสม ระดับชั้น ปวช. 1/1 แผนกวิชาการตลาด. ใน: รายงานการวิจัยในชั้นเรียน, วิทยาลัยเทคนิคราชบุรี. ราชบุรี.

วิภาพรรณ แจ้งจร. (2549). วิธีการหลีกเลี่ยงการใช้คำไม่สุภาพของผู้ใช้อินเทอร์เน็ตบนกระดานสนทนา. มนุษยศาสตร์ปริทรรศน์ 28(1): 42 - 59.

วุฒิชัย วิเชียรไชย. (2549). การกรองคำหยาบในข้อความภาษาไทยโดยไฟไนท์สเตทแมชชีน. วิทยานิพนธ์วิทยาศาสตรมหาบัณฑิต (สถิติประยุกต์), สถาบันบัณฑิตพัฒนบริหารศาสตร์. กรุงเทพฯ: 127 หน้า.

Chakraborty, A., Joarda, S. and Sekh, A.A. (2023). Ensemble Classifier for Hindi Hostile Content Detection. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP) 23(1): 11 – 17. doi: 10.1145/3591353.

Chakravarthi, B.R., Jagadeeshan, M.B., Palanikumar, V. and Priyadharshini R. (2023). Offensive language identification in dravidian languages using MPNet and CNN. International Journal of Information Management Data Insights 3(1): 1 - 18.

Chen, Z. and Feng, W. (2013). Detecting Impolite Crawler by Using Time Series Analysis. In: 2013 IEEE (25th International Conference on Tools with Artificial Intelligence. Herden, VA, United States. 123 - 126.

Dinh, V.H. (2020). Hash Table. Source: http://libetpan.sourceforge.net/doc/API/API/x161.html.Khancome. Retrieved from 15 October 2023.

Khancome, C. and Boonjing, V. (2009). Optimal Linear-time Multi-string Pattern Matching Algorithm. International Journal of Computational Science 3(6): 629 - 641.

Li, W. (2020). The language of bullying: Social issues on Chinese websites. Aggression and Violent Behavior 53(1): 101453.

Loudon K. (2020). Hash Tables. Source: www.oreilly.com/catalog/masteralgoc/chapter/ch08.pdf. Retrieved from 15 October 2023.

Lusiana. Gemini, H., Efendi, Y. (2018). Filtering Impolite Words in Social Network Using Naïve Bayes Classifier. In: 2018 Third International Conference on Informatics and Computing (ICIC). Palembang, Indonesia. 1 - 5.

Magami, F. and Digiampietri, L.A. (2020). Automatic detection of depression from text data: A systematic literature review. In: SBSI 20: Proceedings of the XVI Brazilian Symposium on Information Systems. Association for Computing Machinery, New York, United States. 1 – 8.

Modha, S., Majumder, P., Mandl T. and Mandalia, C. (2020). Detecting and visualizing hate speech in social media: A cyber Watchdog for surveillance. Expert Systems with Applications 161: 1 - 11.

Moin, K., Shahzad, K. and Malik, M.K. (2021). Hate Speech Detection in Roman Urdu. ACM Transactions on Asian and Low -Resource Language Information Processing 20(1): 1 - 19.

Novitasari, S., Lestari, D.P., Sakti, S. and Purwarianti, A. (2018). Rude-Words Detection for Indonesian Speech Using Support Vector Machine. In: 2018 International Conference on Asian Language Processing (IALP), Bandung, Indonesia. 19 - 24. doi: 10.1109/IALP.2018.8629145.

Priya, P., Firdaus, M. and Ekbal, A. (2023). A multi-task learning framework for politeness and emotion detection in dialogues for mental health counselling and legal aid. Expert Systems with Applications 224: 1 - 17.

Tuarob, S., Satravisut, M., Sangtunchai, P., Nunthavanich, S. and Noraset, T. (2023) . FALCoN: Detecting and classifying abusive language in social networks using context features and unlabeled data. Information Processing & Management 60(4): 1 - 24.

Wikipedia. (2020). Hash table. Source: https://en.wikipedia.org/wiki/Hash_table. Retrieved from 15 October 2023.