รหัสซาวเด็กซ์แบบสมบูรณ์เพื่อการวิเคราะห์ความเหมือนของภาษาไทย
Main Article Content
บทคัดย่อ
งานวิจัยนี้เป็นการออกแบบและพัฒนาซาวด์เด็กซ์แบบสมบูรณ์ (Complete Soundex) ซึ่งเป็นวิธีการใหม่ที่จะต้องพิจารณาส่วนประกอบทั้งหมดของคำตามอักขรวิธีในการสร้างกฎการแปลงรหัส และนำเทคนิคการวิเคราะห์ความเหมือน (Similarity comparison) มาใช้แทนการเปรียบเทียบรหัสตรงกัน (Matching comparison) ของซาวด์เด็กซ์แบบเดิมๆ กระบวนการแปลงรหัสซาวด์เด็กซ์แบบสมบูรณ์ดำเนินโดยเครื่องจักรแปลงรหัส (Converter machine) ที่สร้างขึ้นจากกฎต่างๆที่ถูกออกแบบขึ้นใหม่โดยแบ่งออกเป็น กฎพื้นฐาน และกฎเพิ่มเติมที่ความสอดคล้องกับอักขระวิธีและการออกเสียงของส่วนประกอบแต่ละส่วนของคำ โดยมีตารางค่ารหัสของแต่ละส่วนประกอบโดยเฉพาะ การทดสอบและวิเคราะห์ประสิทธิภาพ กระทำโดยการป้อนชื่อและคำที่พิมพ์ผิดในลักษณะต่างๆ 6 รูปแบบได้แก่ การพิมพ์ไม่ครบ พิมพ์เกิน พิมพ์ซ้ำ พิมพ์ผิด พิมพ์ตัวอักษรสลับที่และพิมพ์สะกดแตกต่างกัน เข้าสู่ระบบซาวด์เด็กซ์แบบสมบูรณ์เพื่อค้นคืนคำเหมือนจากพจนานุกรม โดยเปรียบเทียบผลลัพธ์กับวิธีซาวด์เด็กซ์แบบเดิม 4 วิธี ผลการทดสอบพบว่าซาวด์เด็กซ์แบบสมบูรณ์เป็นระบบที่มีประสิทธิภาพสูงที่สุด สามารถค้นคืนคำที่ออกเสียงคล้ายกันพร้อมทั้งคำนวณค่าความเหมือนของคำซึ่งไม่มีในซาวด์เด็กซ์วิธีอื่น และมีคำเหมือนหลายคำที่ซาวด์เด็กซ์แบบเดิมไม่สามารถค้นได้ นอกจากนี้ยังสามารถแก้ปัญหาความผิดพลาดส่วนใหญ่ ที่เกิดจากการความซับซ้อนในการใช้ตัวอักษรควบและสระ ซึ่งเป็นปัญหาที่ยังไม่ได้รับการแก้ไขในซาวด์เด็กซ์แบบเดิมด้วย