[tiếp] [trước][mục lục]

Tổng quan hệ thống xử lý tiếng nói

Hệ thống xử lý tiếng nói ở đây được dùng nôm na để chỉ một hệ thống dùng tín hiệu tiếng nói làm đầu vào, tính toán và cho ra được một kết quả nào đó có ý nghĩa thông tin với con người. Một số ví dụ như:

  • Phát hiện tiếng nói: Hệ thống lắng nghe và cho ra thông tin là hiện đang có hay không có tiếng người nói
  • Phân tích tiếng nói: Hệ thống lắng nghe và cho ra các thông số thể hiện đặc tính của tiếng nói như to nhỏ, cao thấp, formant…
  • Ghi lại lời nói: Hệ thống lắng nghe và cho ra văn bản những câu đang được nói ra
  • Xác định người nói: Hệ thống lắng nghe và cho ra thông tin là ai đang nói

Hệ thống “ghi lại lời nói” hay được gọi là “nhận dạng tiếng nói”, hệ thống “xác định người nói” còn được gọi là “nhận diện giọng nói”. Đa số các văn bản tìm thấy trên mạng hay nhầm lẫn từ nhận dạng và nhận diện nên cần nói rõ luôn như sau. “Nhận” ở đây mang ý nghĩa trong “Nhận ra” rất rõ ràng. Vấn đề nằm ở hai tiếng “dạng” và “diện” vốn khá khó cảm nhận ý nghĩa với người Việt. Để dễ hiểu thì tiếng “diện” gần với “mặt” (“đối diện” = “đối mặt”) nên “nhận diện” thể hiện vấn đề muốn biết ta đang nghe ai. “Dạng” thì dễ cảm nhận hơn (“khuôn dạng”, “định dạng”) nên “nhận dạng” thể hiện vấn đề muốn biết ta đang nghe cái gì. Với tiếng nói thì cái gì ở đây chính là nội dung của câu nói đó. Nội dung được ghi ra thành văn bản vì văn bản chính là cách thức truyền đạt nội dung giữa người với người hiệu quả nhất. Tiếng Anh hai thuật ngữ này là Automatic Speech Recognition và Speaker Identification. Bây giờ Speech To Text (cũng chỉ ghi lại lời nó) được nhiều người thích dùng hơn vì trong sáng dễ hiểu hơn.

Đây là vấn đề về sự ngu ngốc khi cố gắng sử dụng quá đà tiếng Hán Việt cho nó hàn lâm, nó sang, nó phức tạp, nó đẳng cấp…đã được nhắc đi nhắc lại khi dịch “Vốn thế kỉ 21”. Về vấn đề này, bạn đọc có thể xem chi tiết hơn ở đây https://22l5.com/loi-nguoi-dich/ (đoạn giữa). Do đó trong tài liệu này tôi cũng theo các nguyên tắc đó và cố gắng viết theo kiểu càng dễ hiểu càng tốt, tránh mọi thứ hàn lâm nguyên tắc thừa mứa.

Quay trở lại, như bất kì hệ thống xử lý tín hiệu - hệ thống nhận dạng - hệ thống trí tuệ nhân tạo (Artificial Intelligence) - hệ thống học máy (Machine Learning), hệ thống xử lý tiếng nói gồm các thành phần chính:

  1. Tiền xử lý: Các bước cơ bản xử lý đầu vào thô: Lọc nhiễu, chuẩn hóa…nhằm có được tín hiệu sạch hơn. Việc làm này chỉ phụ thuộc vào đặc tính của tín hiệu thu được, ít phụ thuộc vào vấn đề cần giải quyết
  2. Trích chọn đặc trưng: Đầu vào là đầu ra của bước trên, tiến hành tính toán để ra được các đặc trưng (feature). Đặc trưng là các tham số ở mức cao hơn, có khả năng thể hiện tốt tín hiệu trong vấn đề cần giải quyết. Do đó nó khá phụ thuộc vào vấn đề cần giải quyết
  3. Lấy thông tin: Từ các đặc trưng ở bước trước, tính toán lấy ra thông tin mà con người cần biết

Xin lạy lý thuyết, cho xin ví dụ đi. Đúng vậy, các chương tiếp theo chính là những ví dụ giúp chúng ta hiểu rõ hơn tại sao lại chia hệ thống ra thành các thành phần như vậy.

[tiếp] [trước][mục lục]