[tiếp] [trước] [mục lục]

Đặc tính tiếng nói

Tiếng nói người cũng như tiếng kêu con vật, tiếng nước chảy, tiếng quạt kêu nhìn từ góc độ vật lý là sóng âm thanh lan truyền trong không khí. Ta nghe được vì chúng bay bay đến đập vào tai, làm rung màng nhĩ.

Về kĩ thuật, để cho dễ hiểu, ta có thể mượn hình vẽ 2.1. Đây là hình vẽ lấy ở trong bài báo [4] ở đó người ta tính toán các đặc trưng của tiếng nói rồi trên cơ sở đó xây dựng các trò chơi luyện phát âm.


PIC

Biểu đồ 2.1: Tính toán đặc tính từ tín hiệu tiếng nói, ảnh mượn từ [4]


Ta thấy tín hiệu tiếng nói vào (Input Speech Signal) được trải qua các bước tiền xử lý bao gồm:

  1. Khử DC (DC Offset): Chủ yếu để chuẩn hóa tín hiệu nhảy nhót quanh giá trị 0 (giá trị trung bình bằng 0)
  2. Tiền nhấn mạnh (Pre-emphasis): Thực chất là bộ lọc ưu tiên tần số cao, nghĩa là giảm thiểu vai trò của tần số thấp vốn thường chịu ảnh hưởng của các hiệu ứng thu âm không mong muốn
  3. Cửa sổ Hamming (Hamming window): Giảm ảnh hượng của việc tính toán tín hiệu số trong một đoạn tín hiệu ngắn, nghĩa là vi phạm giả thiết vô hạn của chuỗi Fourier. Ặc, biến đổi Fourier là một câu chuyện dài không thể nào viết đủ ở đây. Hẹn bạn đọc ở bài khác

Ý nghĩa chi tiết của các bước tiền xử lý này người viết xin được nợ vào một dịp sau sẽ viết ở phần phụ lục 6.

Sau đó các tham số đặc tính tiếng nói sẽ được ước lượng. Có nhiều cách tính khác nhau. Ví dụ như trong hình vẽ trên, ta có thể thấy người ta tính Formant theo hai bước: Phân tích mã hóa dự báo thẳng (Linear Predictive Coding analysis) rồi tính nghiệm (Root analysis).

Các tham số đặc tính tiếng nói có thể được định nghĩa là các tham số thể hiện ở mức độ nào đó các đặc tính tiếng nói tương ứng. Chúng ta có thể liệt kê ra một số đặc tính quan trọng như sau:

  • Độ to nhỏ - Gắn với tham số Cường độ (Intensity)
  • Độ cao thấp - Gắn với Tần số cơ bản (Fundamental frequency)
  • Âm sắc (Timbre) - Gắn với các Phóoc-măng (Formants)

2.1 Độ to nhỏ
2.2 Độ cao thấp
2.3 Âm sắc

[tiếp] [trước] [mục lục]