การรู้จำเสียงพูดภาษาไทยในสภาพแวดล้อมเสียงรบกวนโดยใช้ PocketSphinx : กรณีศึกษาการนับสินค้าคงคลัง
Main Article Content
บทคัดย่อ
ปัจจุบันเทคโนโลยีการรู้จำเสียงพูด (Speech Recognition) ได้เข้ามามีบทบาทในการดำเนินชีวิตเป็นอย่างมาก โดยประโยชน์ของการใช้เทคโนโลยีการรู้จำเสียงพูดก่อให้เกิดความสะดวกสบาย เช่น การใช้คำสั่งเสียง (Voice Command) ในการสั่งเปิดหรือปิดอุปกรณ์ต่างๆ หรือการใช้โทรศัพท์มือถือสั่งการเพื่อเข้าสู่โปรแกรมต่างๆ นอกจากนั้นเทคโนโลยีนี้ยังมีความสำคัญต่อคนพิการทางสายตาเป็นอย่างมาก เนื่องจากบุคคลเหล่านี้ไม่สามารถมองเห็นได้ จึงจำเป็นต้องใช้คำสั่งเสียง รวมทั้งคนปกติก็ได้รับประโยชน์เช่นเดียวกัน คือ การดำเนินกิจกรรมต่างๆ ได้ด้วยความสะดวกรวดเร็ว
โครงงานนี้มีวัตถุประสงค์เพื่อประยุกต์เทคโนโลยีการรู้จำเสียงพูด โดยนำมาใช้ในการนับของเพื่อช่วยอำนวยความสะดวกรวดเร็ว โดยไม่ต้องใช้มือในการจดบันทึกสินค้าและจำนวนลงบนกรดาษหรือป้อนข้อมูลด้วยการพิมพ์ ซึ่งโปรแกรมที่พัฒนาจะทำงานบนโทรศัพท์มือถือในระบบปฏิบัติการแอนดรอย์ ซึ่งเป็นระบบปฏิบัติการที่ใช้กับโทรศัพท์มือถือที่มีผู้ใช้มากที่สุดในปัจจุบัน ซึ่งผลจากการทดลองในสภาพแวดล้อมต่างๆ หลังการปรับโมเดลเสียง มีอัตราความผิดพลาดในการรู้จำเสียงพูดลดลง
Article Details
นโยบายการรับบทความ
กองบรรณาธิการวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น มีความยินดีรับบทความจากอาจารย์ประจำ และผู้ทรงคุณวุฒิในสาขาวิศวกรรมศาสตร์และเทคโนโลยี ที่เขียนเป็นภาษาไทยหรือภาษาอังกฤษ ซึ่งผลงานวิชาการที่ส่งมาขอตีพิมพ์ต้องไม่เคยเผยแพร่ในสิ่งพิมพ์อื่นใดมาก่อน และต้องไม่อยู่ในระหว่างการพิจารณาของวารสารอื่นที่นำส่ง ดังนั้นผู้สนใจที่จะร่วมเผยแพร่ผลงานและความรู้ที่ศึกษามาสามารถนำส่งบทความได้ที่กองบรรณาธิการเพื่อเสนอต่อคณะกรรมการกลั่นกรองบทความพิจารณาจัดพิมพ์ในวารสารต่อไป ทั้งนี้บทความที่สามารถเผยแพร่ได้ประกอบด้วยบทความวิจัย ผู้สนใจสามารถศึกษาและจัดเตรียมบทความจากคำแนะนำสำหรับผู้เขียนบทความ
การละเมิดลิขสิทธิ์ถือเป็นความรับผิดชอบของผู้ส่งบทความโดยตรง บทความที่ได้รับการตีพิมพ์ต้องผ่านการพิจารณากลั่นกรองคุณภาพจากผู้ทรงคุณวุฒิและได้รับความเห็นชอบจากกองบรรณาธิการ
ข้อความที่ปรากฏภายในบทความของแต่ละบทความที่ตีพิมพ์ในวารสารวิชาการเล่มนี้ เป็น ความคิดเห็นส่วนตัวของผู้เขียนแต่ละท่าน ไม่เกี่ยวข้องกับสถาบันเทคโนโลยีไทย-ญี่ปุ่น และคณาจารย์ท่านอื่น ๆ ในสถาบัน แต่อย่างใด ความรับผิดชอบด้านเนื้อหาและการตรวจร่างบทความแต่ละบทความเป็นของผู้เขียนแต่ละท่าน หากมีความผิดพลาดใด ๆ ผู้เขียนแต่ละท่านจะต้องรับผิดชอบบทความของตนเองแต่ผู้เดียว
กองบรรณาธิการขอสงวนสิทธิ์มิให้นำเนื้อหา ทัศนะ หรือข้อคิดเห็นใด ๆ ของบทความในวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น ไปเผยแพร่ก่อนได้รับอนุญาตจากผู้นิพนธ์ อย่างเป็นลายลักษณ์อักษร ผลงานที่ได้รับการตีพิมพ์ถือเป็นลิขสิทธิ์ของวารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น
ผู้ประสงค์จะส่งบทความเพื่อตีพิมพ์ในวารสารวิชาการ สถาบันเทคโนโลยีไทย-ญี่ปุ่น สามารถส่ง Online ที่ https://www.tci-thaijo.org/index.php/TNIJournal/ โปรดสมัครสมาชิก (Register) โดยกรอกรายละเอียดให้ครบถ้วนหากต้องการสอบถามข้อมูลเพิ่มเติมที่
- กองบรรณาธิการ วารสารสถาบันเทคโนโลยีไทย-ญี่ปุ่น
- ฝ่ายวิจัยและนวัตกรรม สถาบันเทคโนโลยีไทย-ญี่ปุ่น
เลขที่ 1771/1 สถาบันเทคโนโลยีไทย-ญี่ปุ่น ซอยพัฒนาการ 37-39 ถนนพัฒนาการ แขวงสวนหลวง เขตสวนหลวง กรุงเทพมหานคร 10250 ติดต่อกับคุณพิมพ์รต พิพัฒนกุล (02) 763-2752 , คุณจุฑามาศ ประสพสันติ์ (02) 763-2600 Ext. 2402 Fax. (02) 763-2754 หรือ E-mail: JEDT@tni.ac.th
References
D. Huggins-Daines, M. Kumar, A. Chan, A.W. Black, M. Ravishankar & A.I. Rudnicky, “Pocketsphinx : A Free, Real-Time Continuous Speech Recognition System for Hand-Held Devices,” in 2006 IEEE International Conference on Acoustics Speech and Signal Processing, Toulouse, France, 2006.
W. Walker, P. Lamere, P. Kwok, B. Raj, R. Singh, E. Gouvea, P. Wolf and J. Woelfel, “Sphinx-4: A Flexible Open Source Framework for Speech Recognition,” in AMLI TR-2004-139, Nov. 2004.
P. Cotsomrong, T. Sunpetchniyom, S. Kasuriya, N. Thatphithakkul & C. Wutiwiwatchai, “LOTUS : Large vOcabulary Thai continuous Speech Recognition Corpus,” in NAC2005, Nonthaburi, Thailand, 2005
บุญเสริม กิจศิริกุล, ณัฐกร ทับทอง, “การพัมนาระบบรู้จำเสียงพูดภาษาไทย,” โครงการเชื่อมโยงการวิจัยภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย, 2546.
Freeman D.K., Cosier G., Southcott C.B., Boyd., “The Voice Activity Detector for the PAN-European Digital Cellular Mobile Telephone Service,” International Conference on Acoustics, 1989.
Jon P. Nedel, “Duration normalization for robust recognition of spontaneous speech via missing featire methods,” Ph.D. Thesis, Carnegie Mellon University, 2004.
J. Baker, “Stochastic Modeling as a Means of Automatic Speech Recognition,” Ph.D. Thesis, Carnegie Mellon University, 1975.
มนตรี โพธิโสโนทัย, เฉลิมภัณฑ์ ฟองสมุทร, “วิธีการรู้จำเสียงพูดภาษาไทยแบบทนทานต่อเสียงรบกวนภายนอกม” วารสารเทคโนโลยีสารสนเทศ, ฉบับที่ 13, มกราคม-มิถุนายน 2554.