CƠ SỞ TOÁN VÀ MFCCS – TRÍCH XUẤT ĐẶC TRƯNG ÂM THANH

Nguyễn Thế Cường, Nguyễn Thanh Vi, Trương Ngọc Hải

Tóm tắt


Hình ảnh và ngôn ngữ (âm thanh, văn bản) là các dạng thông tin quan trọng nhất mà con người đều sử dụng hàng ngày. Đối với lĩnh vực Trí tuệ nhân tạo (AI), hình ảnh và ngôn ngữ cũng là những dữ liệu quan trọng nhất để làm nguyên liệu khi xây dựng các ứng dụng thực tiễn. Các thuật toán học máy (ML) sẽ được huấn luyện dựa trên những dạng dữ liệu như vậy. Tuy nhiên, làm thế nào để đưa một hình ảnh, một đoạn văn bản hay một đoạn âm thanh thành một ma trận hoặc véc-tơ (trích xuất đặc trưng) để đưa vào các thuật toán ML. Có nhiều phương pháp để xử lí đối với từng dạng dữ liệu là hình ảnh hay ngôn ngữ. Dữ liệu dạng âm thanh dường như còn mơ hồ đối với số đông các nhà nghiên cứu, bởi vì chúng không được hiển thì như hình ảnh hay văn bản. Cơ sở Toán học của xử lí dữ liệu âm thanh còn ít được để ý tới. Trong bài viết này, chúng tôi đề cập cơ sở Toán học và phương pháp MFCCs (Mel-Frequency Cepstral Coefficients) nhằm trích xuất các đặc trưng của dữ liệu dạng âm thanh.


 


Từ khóa


Audio features; Fourier Transform; Mel-Frequency Cepstral Coefficients

Toàn văn:

PDF

Trích dẫn


Ahmed Sajjad, Ayesha Shirazi, Nagma Tabassum, Mohd Saquib, & Naushad Sheikh (2017). Speaker Identification and Verification Using MFCCs and SVM. International Research Jounal of Engineering and Technology (IRJET), 4(2).

Archek Praveen Kumar, Ratnadeep Roy, Sanyog Rawat, & Prathibha Sudhakaran (2017). Continuous Telugu Speech Recognition throught Combined Feature Extraction by MFCCs and DWPD Using HMM based DNN Techniques. International Journal of Pure and Applied Mathematics, 114(11).

Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.

Bodke, R. D., & Satone, M. P. (2018). A review on Speech Feature Techniques and Classification Techniques. International Journal of Trend in Scientific research and Development, 2(4).

Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Kollias, S., Fellenz, W., Taylor, J. (2001). Emotion recognition in humancomputer interaction. in IEEE Signal Process.

Gulbakshee J. Dharmale, & Dipti D. Patil (2019). Evaluation of Phonetic System for Speech Revognition on Smartphone. International Journal of Innovative Technology and Exploring Engineering (IJITEE), 8(10).

Lyons, R. G. (2022). Understanding digital signal processing's frequency domain. RF Design magazine.

Manas Jain, Shruthi Narayan, Pratibha Balaji, Bharath K. P., Abhijit Bhowmick, Karthik, R, & Rajesh Kumar Muthu (2020). Speech Emotion Recognition using Support Vector Machine. Electrical Engineering and Systems Science, Audio and Speech Processing.

Md. Sahidullah, & Goutam Saha (2012). Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Communication, 54(4), 543-565.

Mohammed Hussein, Alkassab, M., Mohammed, H., Abdulaziz Hind, & Jagmagji Ahmed (2018). Speech Recognition System with Different Methods of Feature Extraction. International Journal of Innovative Research in Computer and Communication Engineering, 6(3).

Mohammad Hasan Rahmani, Farshad Almasganj, & Seyyed Ali Seyyedsalehi (2018). Audio-visual feature fusion via deep neural networks for automatic speech recognition. Digital Signal Processing.

Philip Jackson, & Sanaul Haq (12 April 2015). Justdreamweaver.com. Retrieved from https://www.kaggle.com/datasets/ejlok1/surrey-audiovisual-expressed-emotion-savee?resource=download

Sinith, M. S., Aswathi, E., Deepa, T. M., Shameema, C. P., & Shiny, R. (2015). Emotion Recognition from Audio Signals using Support Vector Machine. in IEEE Recent Advances in Intelligent Computational Systems, Trivandrum.




DOI: https://doi.org/10.54607/hcmue.js.20.7.3646(2023)

Tình trạng

  • Danh sách trống