การรู้จำเสียงพูดภาษาไทยในสภาพแวดล้อมเสียงรบกวนโดยใช้ PocketSphinx : กรณีศึกษาการนับสินค้าคงคลัง

Main Article Content

อุดม ได้พร้อม
วีรวุฒิ ทัฬหิกรรม
ดัชกรณ์ ตันเจริญ

บทคัดย่อ

          ปัจจุบันเทคโนโลยีการรู้จำเสียงพูด (Speech Recognition) ได้เข้ามามีบทบาทในการดำเนินชีวิตเป็นอย่างมาก โดยประโยชน์ของการใช้เทคโนโลยีการรู้จำเสียงพูดก่อให้เกิดความสะดวกสบาย เช่น การใช้คำสั่งเสียง (Voice Command) ในการสั่งเปิดหรือปิดอุปกรณ์ต่างๆ หรือการใช้โทรศัพท์มือถือสั่งการเพื่อเข้าสู่โปรแกรมต่างๆ นอกจากนั้นเทคโนโลยีนี้ยังมีความสำคัญต่อคนพิการทางสายตาเป็นอย่างมาก เนื่องจากบุคคลเหล่านี้ไม่สามารถมองเห็นได้ จึงจำเป็นต้องใช้คำสั่งเสียง รวมทั้งคนปกติก็ได้รับประโยชน์เช่นเดียวกัน คือ การดำเนินกิจกรรมต่างๆ ได้ด้วยความสะดวกรวดเร็ว


          โครงงานนี้มีวัตถุประสงค์เพื่อประยุกต์เทคโนโลยีการรู้จำเสียงพูด โดยนำมาใช้ในการนับของเพื่อช่วยอำนวยความสะดวกรวดเร็ว โดยไม่ต้องใช้มือในการจดบันทึกสินค้าและจำนวนลงบนกรดาษหรือป้อนข้อมูลด้วยการพิมพ์ ซึ่งโปรแกรมที่พัฒนาจะทำงานบนโทรศัพท์มือถือในระบบปฏิบัติการแอนดรอย์ ซึ่งเป็นระบบปฏิบัติการที่ใช้กับโทรศัพท์มือถือที่มีผู้ใช้มากที่สุดในปัจจุบัน ซึ่งผลจากการทดลองในสภาพแวดล้อมต่างๆ หลังการปรับโมเดลเสียง มีอัตราความผิดพลาดในการรู้จำเสียงพูดลดลง

Article Details

บท
บทความวิจัย

References

D. Huggins-Daines, M. Kumar, A. Chan, A.W. Black, M. Ravishankar & A.I. Rudnicky, “Pocketsphinx : A Free, Real-Time Continuous Speech Recognition System for Hand-Held Devices,” in 2006 IEEE International Conference on Acoustics Speech and Signal Processing, Toulouse, France, 2006.

W. Walker, P. Lamere, P. Kwok, B. Raj, R. Singh, E. Gouvea, P. Wolf and J. Woelfel, “Sphinx-4: A Flexible Open Source Framework for Speech Recognition,” in AMLI TR-2004-139, Nov. 2004.

P. Cotsomrong, T. Sunpetchniyom, S. Kasuriya, N. Thatphithakkul & C. Wutiwiwatchai, “LOTUS : Large vOcabulary Thai continuous Speech Recognition Corpus,” in NAC2005, Nonthaburi, Thailand, 2005

บุญเสริม กิจศิริกุล, ณัฐกร ทับทอง, “การพัมนาระบบรู้จำเสียงพูดภาษาไทย,” โครงการเชื่อมโยงการวิจัยภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย, 2546.

Freeman D.K., Cosier G., Southcott C.B., Boyd., “The Voice Activity Detector for the PAN-European Digital Cellular Mobile Telephone Service,” International Conference on Acoustics, 1989.

Jon P. Nedel, “Duration normalization for robust recognition of spontaneous speech via missing featire methods,” Ph.D. Thesis, Carnegie Mellon University, 2004.

J. Baker, “Stochastic Modeling as a Means of Automatic Speech Recognition,” Ph.D. Thesis, Carnegie Mellon University, 1975.

มนตรี โพธิโสโนทัย, เฉลิมภัณฑ์ ฟองสมุทร, “วิธีการรู้จำเสียงพูดภาษาไทยแบบทนทานต่อเสียงรบกวนภายนอกม” วารสารเทคโนโลยีสารสนเทศ, ฉบับที่ 13, มกราคม-มิถุนายน 2554.