Muestreo y cuantificación


La señal de la voz es contínua en el tiempo y en amplitud. Para que pueda ser procesada por hardware(y software) digital es necesario convertirla a una señal que sea discreta tanto en el tiempo como en amplitud.

Muestreo


El muestreo consiste en el proceso de conversión de señales contínuas a señales discretas en el tiempo. Este proceso se realizada midiendo la señal en momentos periódicos del tiempo.

Veamos un ejemplo, dada la siguiente señal contínua :

Tras muestrearla, obtenemos la siguiente señal discreta :

En el ejemplo anterior hemos visto el efecto de muestrear una señal sinusoidal. Si aumentamos el número de muestras por unidad de tiempo, la señal muestreada se parecerá más a la señal contínua. El número de muestras por segundo se conoce en inglés como el bit-rate.

Si el bit-rate es lo suficientemente alto, la señal muestreada contendrá la misma información que la señal original. Respecto a esto, el criterio de Nyquist asegura que para que la señal muestreada contenga la misma información que la contínua, la separación mínima entre dos instantes de muestreo debe ser 1/(2 W) , siendo W el ancho de banda de la señal. Dicho de otra forma, que la frecuencia de muestreo debe ser mayor o igual que 2 W.


Otro concepto básico relacionado con la codificación de la voz es la cuantificación


Cuantificación

La cuantificación es la conversión de una señal discreta en el tiempo evaluada de forma contínua a una señal discreta en el tiempo discrétamente evaluada. El valor de cada muestra de la señal se representa como un valor elegido de entre un conjunto finito de posibles valores.

Se conoce como error de cuantificación (o ruido), a la diferencia entre la señal de entrada (sin cuantificar) y la señal de salida (ya cuantificada), interesa que el ruido sea lo más bajo posible. Para conseguir esto, se pueden usar distintas técnicas de cuantificación:


Cuantificación uniforme


En los cuantificadores uniformes (o lineales) la distancia entre los niveles de reconstrucción es siempre la misma, como se observa en la siguiente figura:

No hacen ninguna suposición acerca de la naturaleza de la señal a cuantificar, de ahí que no proporcionen los mejores resultados. Sin embargo, tienen como ventaja que son los más fáciles y menos costosos de implementar.

En la siguiente figura se ve un ejemplo de cuantificación uniforme:


Cuantificación logarítmica


Las señales de voz pueden tener un rango dinámico superior a los 60 dB, por lo que para conseguir una alta calidad de voz se deben usar un elevado número de niveles de reconstrucción. Sin embargo, interesa que la resolución del cuantificador sea mayor en las partes de la señal de menor amplitud que en las de mayor amplitud. Por tanto, en la cuantificación lineal se desperdician niveles de reconstrucción y, consecuentemente, ancho de banda. Esto se puede mejorar incrementando la distancia entre los niveles de reconstrucción conforme aumenta la amplitud de la señal.

Un método sencillo para conseguir esto es haciendo pasar la señal por un compresor logarítmico antes de la cuantificación. Esta señal comprimida puede ser cuantificada uniformemente. A la salida del sistema, la señal pasa por un expansor, que realiza la función inversa al compresor. A esta técnica se le llama compresión. Su principal ventaja es que es muy fácil de implementar y funciona razonáblemente bien con señales distintas a la de la voz.

Para llevar a cabo la compresión existen dos funciones muy utilizadas: Ley-A (utilizada principalmente en Europa) y ley-µ(utilizada en EEUU).

Ley-A :

Ley-µ :


En la mayoría de los sistemas telefónicos, A se fija a 87.56 y µ a 255.

La siguiente figura muestra la gráfica de la ley-µ para distintos valores de µ:

Cuantificación no uniforme


El problema de la cuantificación uniforme es que conforme aumenta la amplitud de la señal, también aumenta el error. Este problema lo resuelve el cuantificador logarítmico de forma parcial. Sin embargo, si conocemos la función de la distribución de probabilidad, podemos ajustar los niveles de recontrucción a la distribución de forma que se minimice el error cuadrático medio. Esto significa que la mayoría de los niveles de reconstrucción se den en la vecindad de las entradas más frecuentes y, consecuentemente, se minimice el error (ruido).

La siguiente figura representa la cuantificación no uniforme:

En la práctica, se puede usar una estimación de la distribución para diseñar los cuantificadores. Esta estimación se puede obtener a partir de los datos a cuantificar de forma iterativa.

Cuantificación vectorial


En los métodos anteriores, cada muestra se cuantificaba independientemente a las muestras vecinas. Sin embargo, la teoría demuestra que ésta no es la mejor forma de cuantificar los datos de entrada. Resulta más eficiente cuantificar los datos en bloques de N muestras. El proceso es sencillamente una extensión de los anteriores métodos escalares descritos anteriormente. En este tipo de cuantificación, el bloque de N muestras se trata como un vector N-dimensional.

En la siguiente figura vemos un ejemplo de cuantificación vectorial (VQ) en dos dimensiones:

El plano XY está dividido en seis regiones distintas. El vector de entrada (con dos componentes) se reemplaza se reemplaza por el centroide i (representa todos los vectores de una determinada región i) de la región a la que pertenece.

La cuantificación vectorial ofrece mejores resultados que la cuantificación escalar, sin embargo, es más sensible a los errores de transmisión y lleva consigo una mayor complejidad computacional.

En el siguiente apartado encontrará la clasificación general de los codificadores de voz.



Clasificación de los codificadores de voz

Los codificadores de voz se clasifican en tres grandes grupos, a saber:

En el primer grupo, codificadores de forma de onda, se engloban aquellos codificadores que intentan reproducir la forma de la onda de la señal de entrada sin tener en cuenta la naturaleza de la misma. Estos, en función de en qué dominio operen, se dividen en:

Este tipo de codificadores proporcionan una alta calidad de voz a bit rates medios, del orden de 32 kb/s. Sin embargo, no son útiles cuando se quiere codificar a bajos bit rates.

En el grupo de vocoders están aquellos codificadores que sí tienen en cuenta la naturaleza de la señal a codificar, en este caso la voz, y aprovechan las características de la misma para ganar en eficiencia. Permiten trabajar con muy bajos bit rates, pero la señal de voz que producen suena demasiado sintética.

En el tercer grupo, los codificadores híbridos, encontramos aquellos que combinando técnicas de los vocoders y de los codificadores de la forma de la onda aúnan las ventajas de ambos, permitiendo una alta calidad de voz a bajos bit rates.


En el siguiente apartado puede estudiar los codificadores de forma de onda


Volver a la página principal del curso