A pesar de que las personas cuentan con buenos equipos para comunicaciones análogas, la transmisión análoga no es particularmente eficaz. Cuando las señales analógicas se vuelven débiles debido a la pérdida de transmisión, es difícil separar la estructura analógica compleja de la estructura del ruido aleatorio de la transmisión. Si amplifica las señales analógicas, también amplifica el ruido, y las conexiones analógicas pueden llegar a ser demasiado ruidosas para su uso. Las señales digitales, que tienen solamente el estado "bit uno" y "bit cero", se separan más fácilmente del ruido. Pueden ser amplificadas sin corrupción. La codificación digital es más inmune a la corrupción del ruido en las conexiones de larga distancia. También, los sistemas de comunicación del mundo se han convertido a un formato de transmisión digital llamado Modulación de código por impulsos (PCM). PCM es un tipo de codificación llamado codificación “en forma de onda” porque crea una forma codificada de la forma de onda original de la voz. Este documento describe el proceso de conversión de señales de voz analógicas a señales digitales en un nivel alto.
No hay requisitos específicos para este documento.
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
For more information on document conventions, refer to the Cisco Technical Tips Conventions.
El PCM es un método de codificación en forma de onda definido en la especificación G.771 ITU-T.
El primer paso para convertir la señal de analógico a digital es filtrar el componente de mayor frecuencia de la señal. Esto facilita la conversión de esta señal. La mayor parte de la energía de la lengua hablada está entre 200 o 300 hertz y alrededor de 2700 o 2800 hertz. Se establece un ancho de banda de aproximadamente 3000 hercios para la comunicación de voz estándar y de voz estándar. Por lo tanto, no tienen que tener filtros precisos (es muy caro). Un ancho de banda de 4000 hercios se realiza desde el punto de vista del equipo. Este filtro que limita la banda se utiliza para prevenir solapamiento (antisolapamiento). Esto sucede cuando la señal de voz analógica de entrada está undersampled, definida por el criterio Nyquist como Fs < 2(BW). La frecuencia de muestreo es inferior a la frecuencia más alta de la señal analógica de entrada. Esto crea una superposición entre el espectro de frecuencia de las muestras y la señal analógica de entrada. El filtro de salida de paso bajo, utilizado para reconstruir la señal de entrada original, no es lo suficientemente inteligente para detectar esta superposición. Por lo tanto, crea una nueva señal que no se origina desde el origen. Esta creación de una señal falsa cuando el muestreo se denomina aliasing.
El segundo paso para convertir una señal de voz analógica en una señal de voz digital es muestrear la señal de entrada filtrada con una frecuencia de muestreo constante. Se logra mediante un proceso denominado modulación de amplitud de pulso (PAM). Este paso utiliza la señal analógica original para modular la amplitud de un tren de pulso que tiene una amplitud y frecuencia constantes. (Consulte la Figura 2).
El tren de impulsos se mueve a una frecuencia constante, llamada frecuencia de muestreo. La señal de voz analógica se puede muestrear a un millón de veces por segundo o a dos o tres veces por segundo. ¿Cómo se determina la frecuencia de muestreo? Un científico llamado Harry Nyquist descubrió que la señal analógica original se podía reconstruir si se tomaban suficientes muestras. Determinó que si la frecuencia de muestreo es al menos el doble de la frecuencia más alta de la señal de voz analógica de entrada original, esta señal puede reconstruirse mediante un filtro de paso bajo en el destino. El criterio Nyquist se afirma así:
Fs > 2(BW) Fs = Sampling frequency BW = Bandwidth of original analog voice signal
Figura 1: Muestreo analógico
Después de filtrar y muestrear (mediante PAM) una señal de voz analógica de entrada, el siguiente paso es digitalizar estas muestras como preparación para la transmisión a través de una red de telefonía. Al proceso de digitalizar las señales de voz análogas se lo denomina PCM. La única diferencia entre PAM y PCM es que el PCM lleva el proceso un paso más allá. PCM descodifica cada muestra analógica utilizando palabras de código binario. El PCM cuenta con un convertidor analógico-digital en el lado de origen y un convertidor digital-analógico en el lado de destino. El PCM utiliza una técnica llamada cuantización para codificar estas muestras.
Figura 2: Modulación de código de pulso - Teorema Nyquist
La cuantificación es el proceso de convertir cada valor analógico de ejemplo en un valor discreto que puede ser asignado a una única palabra de código digital.
Al ingresar a la fase de cuantificación, los ejemplos de señales de entrada se asignan a un intervalo de cuantificación. Todos los intervalos de cuantificación están espaciados de forma equitativa (cuantificación uniforme) a través del rango dinámico de la señal analógica de entrada. A cada intervalo de cuantificación se le asigna un valor discreto en forma de palabra de código binario. El tamaño de palabra estándar utilizado es de ocho bits. Si se muestra una señal analógica de entrada 8000 veces por segundo y cada muestra recibe una palabra de código de ocho bits, la velocidad de bits máxima de transmisión para los sistemas de telefonía que utilizan PCM es de 64 000 bits por segundo. La figura 2 ilustra la forma en que la tasa de transferencia de bits se deriva de un sistema PCM.
A cada muestra de entrada se le asigna un intervalo de cuantificación que es el más cercano a su altura de amplitud. Si a una muestra de entrada no se le asigna un intervalo de cuantificación que coincida con su altura real, se introduce un error en el proceso PCM. Este error se denomina ruido de cuantización. El ruido de cuantificación es equivalente al ruido aleatorio que afecta a la relación señal-ruido (SNR) de una señal de voz. SNR es una medida de la potencia de la señal en relación con el ruido de fondo. La relación se mide normalmente en decibelios (dB). Si la potencia de la señal entrante en los microvoltios es Vs y el nivel de ruido, también en los microvoltios, es Vn, la relación señal-ruido, S/N, en los decibelios se proporciona mediante la fórmula S/N = 20 log10(Vs/Vn). El SNR se mide en decibelios (dB). Cuanto mayor sea el SNR, mejor será la calidad de voz. El ruido de cuantificación reduce el SNR de una señal. Por lo tanto, un incremento en el ruido de cuantificación degrada la calidad de una señal de voz. La figura 3 describe cómo se genera el ruido de cuantificación. A efectos de codificación, una palabra de bit N produce etiquetas de cuantificación 2N.
Figura 3: Conversión analógica a digital
Una forma de reducir el ruido de cuantificación es aumentar la cantidad de intervalos de cuantificación. La diferencia entre la altura de la amplitud de la señal de entrada y el intervalo de cuantización disminuye a medida que los intervalos de cuantización aumentan (los aumentos en los intervalos disminuyen el ruido de cuantización). Sin embargo, también es necesario aumentar la cantidad de palabras de código en proporción al aumento de los intervalos de cuantificación. Este proceso introduce problemas adicionales que tratan de la capacidad de un sistema PCM para manejar más palabras de código.
SNR (incluido el ruido de cuantificación) es el factor más importante que afecta la calidad de voz en la cuantificación uniforme. La cuantificación uniforme utiliza niveles de cuantificación iguales en todo el rango dinámico de una señal analógica de entrada. Por lo tanto, las señales bajas tienen un SNR pequeño (calidad de voz de bajo nivel de señal) y las señales altas tienen un SNR grande (calidad de voz de alto nivel de señal). Dado que la mayoría de las señales de voz generadas son de baja calidad, tener una mejor calidad de voz en niveles de señal más altos es una manera muy ineficiente de digitalizar las señales de voz. Para mejorar la calidad de la voz en niveles de señal inferiores, la cuantificación uniforme (PCM uniforme) se sustituye por un proceso de cuantificación no uniforme denominado "complemento".
El término comprensión-expansión se refiere al proceso por el cual primero se comprime una señal analógica en el origen y después se expande esta señal a su tamaño original cuando llega a destino. El término "complemento" se crea combinando los dos términos, compresión y expansión, en una sola palabra. En el momento del proceso de acompañamiento, las muestras de señal analógica de entrada se comprimen en segmentos logarítmicos. A continuación, cada segmento se cuantifica y codifica utilizando una cuantificación uniforme. El proceso de compresión es logarítmico. La compresión aumenta a medida que aumentan las señales de muestra. En otras palabras, las señales de muestra más grandes se comprimen más que las señales de muestra más pequeñas. Esto hace que aumente el ruido de cuantificación a medida que aumenta la señal de muestra. Un aumento logarítmico del ruido de cuantificación en el rango dinámico de una señal de muestra de entrada mantiene constante el SNR en todo este rango dinámico. Los estándares ITU-T para la compañía se llaman ley A y ley U.
A-law y u-law son esquemas de compresión de audio (códecs) definidos por el Comité Consultivo para Telefonía Internacional y Telegráfica (CCITT) G.711 que comprimen datos PCM lineales de 16 bits hasta ocho bits de datos logarítmicos.
A-law Compander
Limitando los valores de muestra lineales a doce bits de magnitud, la compresión A-law se define por esta ecuación, donde A es el parámetro de compresión (A=87.7 en Europa), y x es el entero normalizado que se comprimirá.
u-law Compander
Limitando los valores de muestra lineales a trece bits de magnitud, la compresión u-law (u-law y Mu-law se utilizan indistintamente en este documento) se define por esta ecuación, donde m es el parámetro de compresión (m =255 en Estados Unidos y Japón) y x es el entero normalizado que se comprimirá.
La norma de la ley A es utilizada principalmente por Europa y el resto del mundo. u-law es utilizado por Norteamérica y Japón.
Ambas son aproximaciones lineales de relación de entrada/salida logarítmica.
Ambos se implementan utilizando palabras de código de ocho bits (256 niveles, uno para cada intervalo de cuantificación). Las palabras de código de ocho bits permiten una velocidad de bits de 64 kilobits por segundo (kbps). Esto se calcula multiplicando la velocidad de muestreo (el doble de la frecuencia de entrada) por el tamaño de la palabra de código (2 x 4 kHz x 8 bits = 64 kbps).
Ambos dividen un rango dinámico en un total de 16 segmentos:
Ocho segmentos positivos y ocho negativos.
Cada segmento es el doble de la longitud de la anterior.
Dentro de cada segmento se utiliza una cuantificación uniforme.
Ambos utilizan un enfoque similar para codificar la palabra de ocho bits:
Primero (MSB) identifica la polaridad.
Los bits dos, tres y cuatro identifican el segmento.
Los últimos cuatro bits cuantifican el segmento son los niveles de señal más bajos que la A-law.
Distintas aproximaciones lineales conducen a diferentes longitudes y pendientes.
La asignación numérica de las posiciones de bit en la palabra de código de ocho bits a los segmentos y los niveles de cuantificación dentro de los segmentos son diferentes.
A-law proporcionar una alcance dinámico mucho mayor que u-law.
u-law proporciona un mejor rendimiento de señal/distorsión para señales de bajo nivel que A-law.
La ley A requiere 13 bits para un equivalente PCM uniforme. u-law requiere 14 bits para un equivalente PCM uniforme.
Una conexión internacional necesita utilizar la ley A, u A conversión es responsabilidad del país de Derecho U.
En el momento del proceso PCM, las diferencias entre las señales de entrada de muestra son mínimas. El PCM diferencial (DPCM) está diseñado para calcular esta diferencia y transmitir esta señal de diferencia pequeña en lugar de toda la señal de muestra de entrada. Dado que la diferencia entre muestras de entrada es inferior a una muestra de entrada completa, se reduce el número de bits necesarios para la transmisión. Esto permite reducir el rendimiento necesario para transmitir señales de voz. El uso de DPCM puede reducir la velocidad de bits de transmisión de voz a 48 kbps.
¿Cómo calcula el DPCM la diferencia entre la señal de muestra actual y un ejemplo anterior? La primera parte del DPCM funciona exactamente igual que PCM (por eso se denomina PCM diferencial). Se da un ejemplo de la señal de entrada en una frecuencia de muestra constante (dos veces la frecuencia de entrada). Luego, se modulan estos ejemplos mediante el proceso PAM. En este momento, entra en funcionamiento el proceso DPCM. La muestra de la señal de entrada se almacena en lo que se denomina predictor. El predictor toma el ejemplo de señal almacenada y la envía a través del diferenciador. El diferenciador compara la señal de muestra anterior con la señal de muestra actual y envía esta diferencia a la fase de cuantificación y codificación del PCM (esta fase puede ser una cuantificación uniforme o ir acompañada de A-law o u-law). Después de cuantificar y codificar, la señal de diferencia se transmite a su destino final. En el extremo receptor de la red, todo se invierte. Primero se decuantifica la señal de diferencia. Entonces, esta señal de diferencia se agrega a un ejemplo de señal almacenado en un predictor y se envía hacia un filtro de pase de bajos que reconstruye la señal de entrada original.
DPCM es una buena manera de reducir la velocidad de bits para la transmisión de voz. Sin embargo, causa algunos otros problemas relacionados con la calidad de la voz. DPCM cuantifica y codifica la diferencia entre una señal de entrada de muestra anterior y una señal de entrada de muestra actual. DPCM cuantifica la señal de diferencia utilizando la cuantificación uniforme. La cuantificación uniforme genera un SNR que es pequeño para señales de muestra de entrada pequeñas y grande para señales de muestra de entrada grandes. Por lo tanto, la calidad de la voz es mejor en las señales más altas. Este escenario es muy ineficiente, ya que la mayoría de las señales generadas por la voz humana son pequeñas. La calidad de voz debe centrarse en señales pequeñas. Para resolver este problema, se desarrolla DPCM adaptativo.
Adaptive DPCM (ADPCM) es un método de codificación de forma de onda definido en la especificación ITU-T G.726.
ADPCM adapta los niveles de cuantificación de la señal de diferencia generada en el momento del proceso DPCM. ¿Cómo adapta ADPCM estos niveles de cuantificación? Si la señal de diferencia es baja, ADPCM aumenta el tamaño de los niveles de cuantificación. Si la señal de diferencia es alta, ADPCM reduce el tamaño de los niveles de cuantificación. Por lo tanto, ADPCM adapta el nivel de cuantificación al tamaño de la señal de diferencia de entrada. Esto genera un SNR que es uniforme en todo el rango dinámico de la señal de diferencia. El uso de ADPCM reduce la velocidad de bits de la transmisión de voz a 32 kbps, la mitad de la velocidad de bits de A-law o U-law PCM. ADPCM produce una voz de "calidad de peaje" al igual que A-law o U-law PCM. El codificador debe tener un loop de retroalimentación, utilizando bits de salida del codificador para recalibrar el cuantificador.
Aplicable como estándares G.726 de la ITU.
Mostrar muestreos A-law o Mu-law en una muestra PCM lineal.
Calcule el valor previsto del siguiente ejemplo.
Mida la diferencia entre muestra real y valor pronosticado.
La diferencia de código es de cuatro bits, envíe esos bits.
Vuelva a alimentar cuatro bits al predictor.
Alimente cuatro bits para cuantificar.