การจำแนกเสียงคนจริงและเสียงสังเคราะห์ปัญญาประดิษฐ์ด้วยโครงข่ายประสาทเทียมแบบคอนโวลูชัน
Main Article Content
บทคัดย่อ
งานวิจัยนี้มีวัตถุประสงค์เพื่อจำแนกเสียงคนจริงและเสียงสังเคราะห์ เพื่อป้องกันการเกิดอาชญากรรมอันเนื่องมาจากการปลอมแปลงเสียงด้วยเทคโนโลยี Deepfake Voice โดยมีกรณีที่บริษัทพลังงานที่ถูกหลอกให้โอนเงินประมาณ 200,000 ปอนด์ (260,000 ดอลลาร์) หลังจากที่มิจฉาชีพใช้ Deepfake Voice เทคโนโลยีเสียงเพื่อเลียนแบบเสียงของประธานบริษัทเพื่ออนุมัติการชำระเงิน ในงานวิจัยนี้สร้างชุดข้อมูลขึ้นมาเองจากตัวอย่างเสียงของคนที่มีชื่อเสียง 15 คน โดยแบ่งเป็นชุดข้อมูลสำหรับฝึกฝนโมเดล ชุดข้อมูลสำหรับตรวจสอบโมเดล และชุดข้อมูลสำหรับทดสอบโมเดล คิดเป็น อัตราส่วน 75:15:10 ใช้วิธีการสกัดคุณลักษณะของเสียงด้วยเทคนิคสัมประสิทธิ์เซปสตรัมบนสเกลเมล (MFCC) จากนั้นสร้างโมเดลโครงข่ายประสาทเทียมแบบคอนโวลูชันในการจำแนกเสียง และใช้วิธีการวัดประสิทธิภาพของโมเดลด้วย Confusion matrix ได้ค่าความถูกต้องเท่ากับ 97%
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
เอกสารอ้างอิง
Amezaga, N. and Hajek, J. (2022). Availability of Voice Deepfake Technology and its Impact for Good and Evil. In: SIGITE'22: Proceedings of the 23rd Annual Conference on Information Technology Education. Association for Computing Machinery, New York. 23 - 28.
Ballesteros, D.M., Rodriguez-Ortega, Y., Renza, D., and Arce, G. (2021). Deep4SNet: Deep learning for fake speech classification. Expert Systems with Applications 184: 115465. doi: 10.1016/j.eswa.2021.115465.
Changwei, Z., Lili, Z., Xiaojun, Z., Yuanbo, W., Di, W. and Zhi, T. (2020). Classification of normal and pathological voices using convolutional neural network. In: 2020 International Conference on Sensing, Measurement & amp; Data Analytics in the Era of Artificial Intelligence (ICSMD). Xi'an Jiaotong University, Xi'an, China. 325-329. doi: 10.1109/icsmd50554.2020.9261730.
Hamza, A., Javed, A.R.R., Iqbal, F., Kryvinska, N., Almadhor, A.S., Jalil, Z. and Borghol, R. (2022). Deepfake audio detection via MFCC features using machine learning. IEEE Access 10: 134018 – 134028. doi: 10.1109/access.2022.3231480.
Hireš, M., Gazda, M., Drotár, P., Pah, N.D., Motin, M.A. and Kumar, D.K. (2022). Convolutional neural network ensemble for Parkinson’s disease detection from voice recordings. Computers in Biology and Medicine 141: 105021. doi: 10.1016/j.compbiomed.2021.105021.
Kao, Y.C., Li, C.T., Tai, T.C. and Wang, J.C. (2021). Emotional speech analysis based on convolutional neural networks. In: 2021 9th International Conference on Orange Technology (ICOT). CMICSD Laboratory, National Cheng Kung University, Tainan, Taiwan. 1 - 4. doi: 10.1109/icot54518.2021. 968 0651.
Khochare, J., Joshi, C., Yenarkar, B., Suratkar, S. and Kazi, F. (2021). A deep learning framework for audio deepfake detection. Arabian Journal for Science and Engineering 47(3): 3447 – 3458. doi: 10.1007/s13369-021-06297-w.
Mukhopadhyay, D., Shirvanian, M. and Saxena, N. (2015). All Your Voices are Belong to Us: Stealing Voices to Fool Humans and Machines. In: Computer Security -- ESORICS 2015. Lecture Notes in Computer Science, Vienna. 599 - 621.
Narasimhan, R., Fern, X.Z. and Raich, R. (2017). Simultaneous segmentation and classification of bird song using CNN. In: 2017 IEEE International Conference on Acoustics. Speech and Signal Processing (ICASSP). IEEE Signal Processing Society, New Orleans, USA. 146 - 150. doi: 10.1109/icassp.2017.7952135.
Reimao, R. and Tzerpos, V. (2019). FoR: A dataset for synthetic speech detection. In: 2019 International Conference on Speech Technology and Human-Computer Dialogue (SpeD). Telecommunications and Information Technology, Politehnica University of Bucharest, Timisoara, Romania. 1 - 10. doi: 10.1109/SPED.2019.8906599.
Ring, T. (2021). Europol: the AI hacker threat to biometrics. Biometric Technology Today 2021(2): 9 - 11. doi: 10.1016/S0969-4765(21)00023-0.