Metoda Mel Frequency Cepstrum Coefficients (MFCC) untuk Mengenali Ucapan pada Bahasa Indonesia
Abstract
Sampai saat ini belum ada suatu aplikasi yang dapat digunakan untuk mengubah ucapan dalam bahasa Indonesia menjadi tulisan yang memenuhi kaidah penulisan bahasa Indonesia. Kajian untuk mengubah ucapan menjadi tulisan, setakat ini baru berada pada pengubahan ucapan abjad untuk diterjemahkan menjadi huruf. Sementara, jika ucapan melalui bahasa Indonesia dapat di ubah ke dalam tulisan akan dapat menambah pola penyebaran informasi di kalangan akademis, pemerintahan dan masyarakat secara luas dan adaptif. Di dalam pertemuan ilmiah, non ilmiah, interogasi, dan pidato politik yang umumnya tidak menggunakan teks book sebagai media penyampai secara baku. Audien yang disasar oleh informasi yang diciptakan oleh pertemuan tersebut akan lebih merata, luas, dan seluruh strata. Walau suara dapat menjadi media penyampai informasi namun keberagaman kemasan yang dibuat dapat meningkatkan penetrasi informasi pada seluruh lapisan strata masyarakat. Konstruksi perangkat lunak dibuat dengan menggunakan metode MFCC (Mel Frequency Sepstrum Coefficients) feature extraction dan di dukung dengan K-Means clustering. MFCC feature extraction mengekstrak signal suara ke dalam beberapa vektor data. Hasil dari MFCC feature extraction mempunyai ukuran yang sangat besar, sehingga digunakanlah K-Means clustring untuk membuat beberapa vektor pusat sebagai wakil dari keseluruhan vektor data yang ada untuk digunakan dalam proses pengenalan sehingga mempersingkat waktu. Penelitian ini akan menghasilkan teknologi berupa aplikasi yang dapat di gunakan dengan baik serta diberi keleluasaan untuk dikembangkan pada seluruh bagian sehingga lebih adaptif dan inovatifReferences
Antonio M. Peinado, Jos´ eC.Segura, 2006, Speech Recognition Over Digital Channels Robustness and Standards, , John Wiley & Sons, Ltd, West Sussex
David Damm, Harald Grohganz, Frank Kurth, Sebastian Ewert, and Michael Clausen, 2011, SyncTS: Automatic synchronization of speech and text documents, AES 42ND INTERNATIONAL CONFERENCE, Ilmenau, Germany, 2011 July 22–24, page 1 – 10
Helenca Duxans i Barrobes, 2006, Voice Conversion applied to Text-to-Speech systems, Universitat Politecnica de Catalunya
Ricardo Ribeiro, David Martins de Matos, 2008, Mixed-Source Multi-Document Speech-to-Text Summarization, Coling 2008: Proceedings of the workshop on Multi-source Multilingual Information Extraction and Summarization, Manchester, August 2008, pages 33–40
Sanjiv K. Bhatia, 2004, Adaptive K-Means Clustering, American Association for Artiï¬cial Intelligence (www.aaai.org). page 74-79