Monografias.com > Computación > Software
Descargar Imprimir Comentar Ver trabajos relacionados

Compresión de audio MPEG




Enviado por smangiaterra



Partes: 1, 2, 3, 4, 5

    1. El Modelo
      Psicoacústico
    2. Norma ISO/IEC 11172 – 3 :
      Audio
    3. La Trama de
      Audio
    4. Decodificación
    5. Codificación
    6. Modelos
      Psicoacústicos de la ISO/IEC 11172
    7. Aplicaciones
      del estándar MPEG-1
    8. Temas
      Relacionados
    9. Glosario
    10. Referencias

    1
    Introducción

    Generalidades

    Las señales
    de audio, producto de
    trasducciones acustoeléctricas son en la gran
    mayoría de los casos de tipo analógicas. Es decir,
    una señal eléctrica de magnitud finita y continua
    en el tiempo, con
    niveles variables de
    acuerdo a los valores de
    la información original, acotados entre dos
    límites. Esta simple representación
    ha permitido la transmisión, a través de métodos de
    modulación adecuados, y el almacenamiento de
    la información. Sin embargo, la eficiencia y
    eficacia de
    estos procedimientos no
    son perfectos. La aparición de ruidos, de origen natural o
    creados por el hombre, y
    de distorsiones lineales y alinéales propias del canal de
    transmisión deterioran la señal analógica en
    forma más o menos severa, según los
    casos.

    El desarrollo de
    la tecnología digital ha posibilitado la
    incorporación de nuevas formas de tratamiento de la
    información, que permiten disminuir los efectos de tales
    disturbios e imperfecciones. Pero la digitalización trae
    como consecuencias un aumento sustancial del ancho de banda
    necesario para la transmisión y un aumento de la capacidad
    necesaria para el almacenamiento. En consecuencia, uno de los
    desarrollos más recientes y prometedores es la
    compresión
    de datos que intenta
    disminuir algunos de los efectos no deseados de la
    digitalización.

    La reducción de la velocidad de
    transmisión o tasa de bits (directamente relacionada con
    el ancho de banda de transmisión) es necesaria porque los
    costos de
    transmisión aumentan con dicha velocidad. Por lo tanto es
    imperativo el uso de técnicas
    de compresión para conseguir la más baja velocidad
    posible que proporcione una aceptable calidad de
    imagen y audio
    en una determinada aplicación.

    La digitalización de las redes de telecomunicaciones ha traído también
    un cambio en las
    características y calidad de las señales
    transportadas, y puede afirmarse que las señales digitales
    son transportadas con una facilidad cada vez mayor. En especial,
    las señales de televisión, tanto normales como de alta
    calidad, si bien eran aptas para su transporte
    digital, debían enfrentarse a la necesidad de un
    transporte de información en cantidades cada vez
    mayores.

    En consecuencia, durante mucho tiempo fue notorio el
    interés
    de encontrar la posibilidad de reducir la velocidad de
    transmisión necesaria aprovechando las
    características específicas de las señales
    de audio y voz.

    Uno de los principales requisitos para el éxito
    de cualquier sistema de
    compresión es la compatibilidad entre terminales. Por
    consiguiente, es necesario encontrar estándares nacionales
    e internacionales para velocidades de transferencia de datos,
    interfaces, protocolos y
    señalización.

    La compresión digital de audio es un campo cada
    vez más importante y activo. El progreso en los algoritmos de
    compresión, la tecnología VLSI, y las normas de
    codificación han hecho del audio digital
    una tecnología practicable para muchas aplicaciones. Ante
    todo, se han desarrollado muchos nuevos algoritmos de
    compresión, que permiten la transmisión o el
    almacenamiento de audio digital con excelente calidad a tasa de
    datos razonables. Además, el avance en la
    tecnología VLSI hace posible implementar algoritmos
    sofisticados de compresión para aplicaciones en tiempo
    real de una manera eficaz en función de
    los costos. Finalmente, surgieron rápidamente las normas
    para la compresión de audio que facilitan las plataformas
    comunes de comunicación. Como resultado de todo esto,
    se están formando nuevas alianzas,
    comercializándose nuevos productos,
    efectuándose nuevos ensayos, y se
    están suministrando nuevos servicios, con
    lo cual la compresión digital de audio está
    adquiriendo cada vez una importancia mayor.

    A fin de normalizar todo lo referente al tema
    compresión, la
    Organización Internacional de Normas (ISO:
    International Standards Organization)
    creó un subcomité en conjunto con la
    Comisión Internacional Electrotecnia (IEC:
    International Electrotechnical Commission)
    denominado "Grupo de
    Expertos en Imágenes
    en Movimiento"
    MPEG (Moving Pictures Experts
    Group). Este grupo de trabajo ha
    desarrollado dos normas, una para el vídeo y audio digital
    de computadoras
    identificada por la sigla MPEG-1 (publicada en noviembre
    de 1992) y otra para el vídeo y audio digitales empleados
    en la radiodifusión y en la distribución filoguiada de tales
    señales, bautizada con la denominación
    MPEG-2. En marzo de 1993 el MPEG
    publicó una propuesta de la norma MPEG-2, en la que se
    definió que el objetivo de
    calidad buscado era el nivel establecido en la
    Recomendación 601 de la UIT-R (ex CCIR: Comité
    Consultivo Internacional de Radiocomunicaciones). En julio de
    1993 se publicaron los requisitos establecidos por la Norma
    MPEG-2. La ISO esta
    trabajando en una nueva iniciativa para la codificación a
    tasa muy baja de bits de información de audio y de
    vídeo (MPEG-4) que se presentará en
    1999.

    El desarrollo de MPEG-1
    (en lo que a audio se refiere) se orientó hacia las
    técnicas para reducir la tasa de bits a 1.5 Mbps como
    límite superior.

    El MPEG no especifica una técnica única de
    compresión, sino un conjunto de las herramientas
    de compresión que pueden usarse en conformidad con reglas
    exactas de una sintaxis de compresión. Estas reglas
    exactas facilitan el intercambio de flujo de bits entre
    aplicaciones diferentes.

    En éste proyecto se
    introducirán primero conceptos generales sobre
    compresión y otros temas necesarios para el entendimiento
    de las técnicas utilizadas en los sistemas que se
    ajustan a las normas MPEG 1. Se tratará exclusivamente lo
    relacionado a la compresión del audio. Luego se
    expondrán temas más relacionados a la
    implementación de diferentes algoritmos necesarios para
    los codecs MPEG 1.

    Definición de
    compresión

    La compresión de las señales es el
    proceso
    mediante el que se obtiene la reducción del caudal de
    datos a transmitir y/o almacenar.

    Este proceso tiene que ser eficaz, esto es: la
    técnica empleada para la reducción debe permitir
    que el terminal receptor y/o reproductor presente la
    información de modo que, luego de expandirla, los
    observadores y/u oyentes no se encuentren en capacidad de notar
    diferencia alguna si tuvieran la oportunidad de comparar la
    señal original con la así procesada. Además,
    el proceso tiene que ser eficiente, es decir: ha de efectuarse en
    tiempo real y con un costo que
    justifique los beneficios pretendidos. El dominio elegido
    para este proceso es el digital, por las innumerables ventajas
    que posee sobre el analógico.

    Compresión, reducción de la
    tasa de bits y reducción de datos son todos
    términos que significan básicamente lo mismo en
    este contexto. En esencia, compresión significa que la
    misma información se transfiere usando una menor tasa de
    datos. Se debe indicar que en el lenguaje
    tradicional del audio, "compresión" significa un proceso
    en el cual se reduce el rango dinámico de la señal
    representativa del sonido. En el
    lenguaje
    digital la misma palabra significa que la tasa de bits se reduce,
    idealmente dejando sin cambios la dinámica de la señal. Por lo tanto
    en este contexto se adoptará el último
    significado.

    La compresión puede ser utilizada de dos maneras
    diferentes:

    1) En transmisión

    2) En almacenamiento

    La compresión utilizada en transmisión se
    resume en la figura 1.1. Se puede ver en la figura 1.1.A que el
    compresor reduce la tasa de datos de la fuente. Los datos
    comprimidos atraviesan un canal de comunicación y luego
    son vueltos a la tasa original mediante el expansor. La
    relación entre la tasa de datos de la fuente y la tasa de
    datos del canal se llama factor de compresión. Se
    usa también el término ganancia de
    codificación
    . A veces a un compresor y un expansor en
    cascada se los denomina compansor. El compresor puede
    igualmente bien llamarse codificador y el expansor decodificador
    en cuáles casos el par en tándem puede denominarse
    codec. En las comunicaciones, el costo de los enlaces de datos
    es la mayoría de las veces proporcional (groseramente) a
    la tasa de datos y por lo tanto es que surge una cierta presión
    económica para usar un factor alto de compresión.
    Sin embargo, se debe tener en mente que la implementación
    de un codec también tiene un costo que sube con el factor
    de compresión y en consecuencia será necesario
    llegar a un compromiso.

    La figura 1.1.B muestra el uso de
    un codec para almacenamiento de información. El uso de la
    compresión en aplicaciones de almacenamiento es sumamente
    poderoso. Es decir, que el mismo trae numerosas ventajas como ser
    que el tiempo de reproducción medio se extiende en
    proporción al factor de compresión puesto que, por
    ejemplo, en una cinta puede almacenarse más
    información. En el caso de las cintas, el tiempo de acceso
    se mejora porque la longitud de cinta necesaria para una
    grabación determinada se reducirá y por lo tanto
    puede ser rebobinada más rápidamente.

    Figura 1.1.a. Compresión
    utilizada en transmisión.

    Figura 1.1.B. Uso de un codec para
    almacenamiento de información.

    Razones de las técnicas de
    compresión

    El audio comenzó como un medio analógico.
    Las señales de audio se capturaron, almacenaron,
    procesaron, y transmitieron usando técnicas
    analógicas en las que una señal "forma" en
    sí misma el sonido.

    Hoy, el audio (y la
    televisión) reúne otro tipo de
    información electrónica y las tecnologías
    utilizadas en comunicaciones son totalmente digitales. En vez de
    emplear formas de onda analógicas, las señales de
    audio se digitalizan, lo cual significa que la información
    visual se muestrea en muchos puntos en el espacio y en el tiempo,
    y estos valores de
    muestreo se
    convierten en códigos digitales binarios (O's y 1's).
    Estos valores digitales, no son señales analógicas
    en sí mismos, son los qué luego se
    almacenarán en cinta, disco, o silicio y se transmiten por
    cable o aire utilizando
    adecuados métodos de modulación.

    El audio (y vídeo) digital involucra una cantidad
    muy grande de datos. Al representar las señales de audio
    en forma digital pueden ponerse a prueba tanto el almacenamiento,
    la capacidad de dispositivos, como grabadores, discos, sistemas
    basados en RAM, etc., y
    también pueden retarse la capacidad de transporte de
    información de los canales de
    transmisión.

    La transmisión, almacenamiento, y procesamiento
    de la señal de audio digital requiere la
    manipulación de cuantiosos flujos de datos (mayor
    aún la compuesta de vídeo y audio). La velocidad de
    estos flujos de datos se llama tasa de bits, la cual
    mide la cantidad de datos en bits por segundo. Cuanto
    más alta es la calidad de la señal de audio
    representada, más alta es la tasa de bits, lo cual implica
    un mayor desafío para los dispositivos de
    almacenamiento y para los canales de
    transmisión.

    Las señales de audio digital ocupan mucho
    más ancho de banda que sus equivalentes analógicas.
    Por lo tanto los sistemas que pueden reducir los requerimientos
    de espectro sin empobrecer la calidad son verdaderamente
    estimados. Ellos permiten que la transmisión digital sea
    práctica y económica. Ahora están
    disponibles varios sistemas que permiten la transmisión de
    audio digital de alta calidad en menos de un cuarto del ancho de
    banda previamente requerido.

    Con la amplia escala de
    aceptación de los discos compactos (CD), los
    beneficios del audio de alta fidelidad digital han atraído
    dramáticamente la atención de los usuarios y profesionales.
    La claridad y robustez del CD no han sido equiparada por ninguno
    de los otros reproductores domésticos de la anterior
    tecnología. Además, en los últimos
    años, se puede apreciar que la demanda por
    sonido de alta calidad se ha filtrado a través de muchas
    otras áreas de la industria del
    entretenimiento.

    Respondiendo a esta creciente demanda por mejorar la
    calidad del sonido, muchas compañías de audio y
    autoridades del broadcasting han determinado su intención
    por desarrollar los medios de
    audio digital, prometiendo un amplio rango de futuros servicios
    digitales.

    Aunque la grabación de audio digital y la
    transmisión ofrecen muchas ventajas sonoras y
    operacionales sobre su contraparte analógica (inmunidad al
    ruido, mejor
    ancho de banda de audio y múltiples reproducciones sin
    degradación de la señal) esta claro que las
    señales de audio digital ocupan un extremadamente amplio
    ancho de banda de transmisión. Por ejemplo, la tasa de
    transferencia digital de un CD es más de 1.4 Mbps
    (44100 x 16 x 2 = 1411200, es decir, tasa de muestreo por bit por
    muestra por número de canales para reproducción
    estéreo). Esta salida representa un ancho de banda de
    aproximadamente 1,5 MHz (más de 60 veces del que posee la
    señal analógica original). Para los medios de
    almacenamiento, esto no ha sido un factor limitante en el
    desarrollo de estaciones de trabajo (workstations) y/o de
    sistemas de reproducción al aire, pero ello puede ser un
    problema en aplicaciones de transmisión.

    Para disfrutar del audio digital de uso extendido a lo
    largo de la industria del broadcast, el ancho de banda de la
    señal digitalizada debe reducirse. Se disponen ahora de
    una variedad de sistemas innovativos que reducen el ancho de
    banda del audio digital con calidad de CD. Por numerosas razones,
    la transmisión de audio de alta calidad será la de
    mayor demanda y de aplicación persistente de tales
    técnicas de reducción de datos.

    Están disponibles ahora varias técnicas
    que reducen la tasa de datos de las señales de audio PCM
    de 16 bits estándar tanto que ellas pueden transportarse
    sobre líneas de 64 Kbps, 96 Kbps, 128 Kbps
    o 256 Kbps (dependiendo de la frecuencia de muestreo y la
    relación de reducción de la tasa de bits). Esto
    permite su transmisión sobre ISDN, fracciones de canal
    T-1, etc. Las relaciones de compresión (cociente entre la
    tasa de bits de entrada al compresor y la tasa de bits a la
    salida del compresor) comunes varían entre 4:1 a tan altas
    como 12:1.

    Hoy en día, y por lo que concierne a las redes
    troncales, los cables de fibra
    óptica permiten la transmisión de
    señales digitales de vídeo y audio de una forma
    más fácil que en el pasado.

    No obstante, todavía son numerosas las
    aplicaciones que requieren ahorro en el
    ancho de banda utilizado, siendo virtualmente obligatorio el uso
    de la compresión de señales en las aplicaciones
    vía satélite o mediante radioenlaces. Por otra
    parte, el costo de los medios de transmisión y las tarifas
    por su utilización juegan un papel importante en la
    elección de la velocidad de transmisión deseada.
    Ello explica como, incluso en el caso de transmisión por
    fibra óptica,
    puede ser útil la economía del ancho de
    banda.

    La tremenda evolución en el desarrollo de la
    tecnología de señales digitales, en la
    fabricación de microprocesadores
    y en la capacidad de las memorias
    actuales, permite la ejecución en tiempo real de
    algoritmos extremadamente complejos, garantizando así que
    la calidad del audio (y vídeo) se vea apenas afectadas por
    la compresión.

    Actualmente se hallan completamente desarrolladas
    técnicas de reducción de redundancia para
    aplicaciones de contribución, siendo en la actualidad
    utilizadas de forma aún más generalizada en redes
    de distribución secundarias.

    De lo expuesto se puede apreciar claramente que es
    necesario encontrar una manera de acomodar los cuantiosos flujos
    de datos a los medios de transmisión y almacenamiento
    disponibles. La solución a este problema no es otra
    más que la compresión de los datos representativos
    del audio (y vídeo); manteniendo lo mejor posible, de
    acuerdo a los requerimientos del servicio en
    particular, la calidad audiovisual resultante.

    De acuerdo con lo expresado anteriormente se puede decir
    que hay dos razones fundamentales por lo
    cual las técnicas de compresión se usan:

    Figura 1.2

    Conclusión: El objetivo buscado es obtener
    una reducción del ancho de banda ocupado por las
    transmisiones de audio (y vídeo) así como
    también disminuir la capacidad necesaria para el
    almacenamiento de dichas informaciones, ya sea por cuestiones de
    practicidad o por cuestiones económicas.

    Irrelevancia y
    redundancia

    • Una señal o dato es
    irrelevante cuando su presencia no es
    perceptible por la mayoría de los evaluadores
    (observadores y/u oyentes) o cuando no produce efecto alguno
    sobre el sistema.

    • Una señal o dato es
    redundante cuando su presencia, aunque
    perceptible, no provee un aporte a la información ya
    conocida.

    Teniendo en cuenta estas dos características, los
    distintos métodos de compresión se proponen
    eliminar del caudal de datos aquéllos que son irrelevantes
    y/o redundantes.

    Un buen algoritmo de
    compresión tiene dos metas. La primer meta es proveer un
    método
    más eficiente de representación de la imagen (y/o
    del sonido). La segunda meta es sacrificar aquellas
    características del cuadro de vídeo (y/o secuencia
    PCM para el caso del audio) a las que los sentidos
    humanos son menos sensibles y sacrificar también aquella
    información de sucesos que son muy poco probables que
    aparezcan (es decir, en la codificación, solo se
    tendrán en cuenta los sucesos habituales).

    Clasificación de
    las redundancias en el audio

    La mayoría de los sistemas de audio digital usan
    técnicas de modulación por codificación de
    pulsos (PCM) para digitalizar las señales de audio
    analógicas. Los sistemas de alta calidad, tales como los
    formatos CD's con PCM lineal de 16 bits, resultan en tasas de
    datos que exceden en mucho la tasa de información de la
    señal original. Por esta razón, los datos digitales
    PCM son altamente redundantes y generalmente con grandes anchos
    de banda.

    Las redundancias en PCM pueden identificarse en dos
    importantes áreas:

    1) Redundancias objetivas (o
    redundancias) las cuales son medibles y cuantifican ciertas
    características numéricamente predecibles de las
    señales de audio, tales como la periodicidad de las formas
    de onda

    2) Redundancias subjetivas (o
    irrelevancia), las que resultan de los fenómenos
    psicoacústicos de la audición humana. (La
    eliminación de redundancia es también citada como
    compresión estadística, mientras que la
    remoción de la irrelevancia es frecuentemente llamada
    codificación perceptiva).

    La figura 1.3 ilustra este principio en forma
    gráfica. Las curvas superiores en cada una de las muestras
    de música
    exhibe la respuesta de amplitud en el tiempo, mientras que las
    inferiores son el trazado de la amplitud vs. frecuencia de un
    breve muestreo de 32 mseg. Notar que la forma de onda (b)
    superior es altamente periódica y repetitiva, y que el
    espectro es ponderado predominantemente hacia las bajas
    frecuencias debajo de los 4 KHz. Usando estas dos fundamentales
    propiedades, pueden idearse esquemas que examinen la forma de
    onda del audio o en el dominio del tiempo (la familiar respuesta
    amplitud en el tiempo) o dentro del dominio de la frecuencia,
    mediante por ejemplo la ejecución de la transformada de
    Fourier sobre la forma de onda más relevante.

    Figura 1.3. (a) Guitarra
    clásica y (b) trombón

    Compresión sin
    pérdidas y con pérdidas

    Las técnicas de compresión de audio, en
    general, se pueden clasificar en dos categorías
    básicas: sin pérdidas y con pérdidas. Aunque
    hay muchas diferentes técnicas de compresión, todas
    ellas caen en una u otra de estas categorías.

    En la compresión sin
    pérdidas
    , los datos del expansor son
    idénticos bit por bit a los datos originales de la fuente.
    La compresión sin pérdida, también es
    conocida como compresión reversible, ya que no pierde
    datos. La señal de audio comprimido puede ser
    descomprimida sin omitir ninguna muestra de información.
    La compresión sin pérdida, sin embargo, permite
    solo una modesta reducción de tasa de bit.

    Los programas del
    tipo del ‘Stacker’ que aumentan la capacidad aparente
    de unidades de disco en computadoras personales usan codecs sin
    pérdida. Se puede ver claramente que para los programas de
    computadora la
    corrupción
    de un solo bit puede ser catastrófica. La
    compresión sin pérdidas se restringe generalmente a
    factores de compresión de alrededor 2:1.

    Es importante apreciar que un codificador sin
    pérdidas no puede garantizar un factor de
    compresión en particular y por lo tanto los
    vínculos de comunicaciones o los procedimientos de
    almacenamiento utilizados deberán ser capaces de funcionar
    con una tasa de datos variable.

    Los datos de fuente, que en un codec determinado, causan
    factores pobres de compresión son conocidos como
    dificultad del material. Se debe indicar que la dificultad es
    frecuentemente una función del codec. En otras palabras,
    los datos que un codec encuentra difícil puede que
    otro no lo encuentre difícil.

    Los codecs sin pérdida pueden incluirse en los
    planes de prueba de la tasa de bits erróneos. Es
    también posible poner en serie o en tándem codecs
    sin pérdida sin precauciones especiales.

    En la compresión con
    pérdidas
    , los datos desde el expansor no son
    idénticos bit a bit a los datos de la fuente. La
    compresión con pérdida es irreversible, ya la
    señal de audio reconstruida perderá algunos de sus
    muestras originales.

    La compresión con pérdida, permite una
    más alta reducción de la tasa de bits. En general,
    una mayor compresión crea una mayor distorsión pero
    con técnicas cuidadosamente seleccionadas, esta
    distorsión puede hacerse bastante imperceptible al
    oído
    humano. Los codecs con pérdida no son apropiados para los
    datos de computadora, pero son habituales en aplicaciones de
    audio puesto que ellos permiten un mayor factor de
    compresión que los codecs sin pérdida.

    Los codecs con pérdida exitosos son aquellos en
    los cuales las diferencias se arreglan para que un oyente humano
    los encuentre subjetivamente difícil de percibir.
    Así los codecs con pérdida deben ser basados en una
    comprensión de percepción
    psicoacústica. Estos se llaman frecuentemente
    códigos perceptivos.

    En la compresión (o codificación)
    perceptiva, un mayor factor de compresión,
    requerirá, que deban modelarse más precisamente los
    sentidos humanos. Los codificadores perceptivos tienen la ventaja
    de que pueden forzarse a operar a un factor fijo de
    compresión. Esto es conveniente para aplicaciones
    prácticas de transmisión y almacenamiento donde una
    tasa fija de datos es más fácil de manejar que una
    tasa variable. El resultado de emplear un factor fijo de
    compresión es que la calidad subjetiva puede variar con la
    "dificultad" del material de entrada al codec.

    Los codecs perceptivos no deberían conectarse en
    tándem (en cascada) indiscriminadamente, especialmente si
    ellos usan algoritmos diferentes. Debido a que la señal
    reconstruida desde un codec perceptivo no es bit a bit precisa,
    tal codec no puede incluirse en cualquier sistema de prueba de la
    tasa de bits erróneos puesto que las diferencias
    introducidas por la compresión serían
    indistinguibles de los verdaderos errores.

    Los códigos sin pérdida son menos comunes
    en audio (y en vídeo) donde los códigos perceptivos
    pueden utilizarse. Los códigos perceptivos frecuentemente
    obtiene una ganancia de codificación acortando las
    longitudes de las palabras de datos que representan la forma de
    onda de la señal. Esto aumenta el nivel de ruido. El truco
    está en asegurarse que el ruido resultante se pone a
    frecuencias donde los sentidos humanos son menos capaces de
    percibirlo. Como resultado, aunque la señal recibida sea
    apreciablemente diferente de los datos de la fuente, puede
    parecerle lo mismo al oyente. Lográndose así
    factores moderados de compresión. Como estos
    códigos confían en las características de la
    audición, ellos pueden solamente probarse en forma
    totalmente subjetiva.

    El factor de compresión de tales códigos
    puede establecerse a voluntad por elección de la longitud
    de las palabras de los datos comprimidos. Una compresión
    leve sería indetectable, pero con un mayor factor de
    compresión, las dificultades de codificación
    llegarían a ser perceptibles.

    2 – El Modelo
    Psicoacústico

     Generalidades. Experimentos
    realizados.

    Los modelos
    psicoacústicos se componen a partir de las percepciones de
    un grupo de personas entrenadas para rendir al máximo en
    este campo. Por medio de una serie de experimentos se puede
    determinar la sensibilidad del oído humano a una serie de
    fenómenos, de forma que aparezcan resultados útiles
    para el tratamiento del sonido, como ya hemos visto.

    Las tres siguientes características de la
    audición se acompañan del experimento que sirve
    para cuantificarlas.

    • Sensibilidad del oído humano.
      Experimento: situar a la persona aislada
      de otros sonidos y ofrecer un tono de 1 KHz al nivel
      mínimo de sonido posible. Elevar el volumen hasta
      que sea justo perceptible. Variar la frecuencia y representar
      en la gráfica.

      

    Figura 2.1. Sensibilidad del
    oído humano en función de la
    frecuencia

    • Enmascaramiento en frecuencia. Experimento: en
      las mismas condiciones, ofrecer un tono de 1 KHz (enmascarador)
      a un volumen determinado (60 dB, por ejemplo). Ofrecer un
      sonido de prueba a 1,1 KHz y elevar su volumen hasta que sea
      justo perceptible. Variar la frecuencia del tono de prueba y
      trazar la gráfica del límite de
      audición.


    Figura 2.2. Enmascaramiento en frecuencia del tono de 1
    KHz

       Repetir para todas las frecuencias de tonos
    de prueba necesarias.

    Figura 2.3. Enmascaramiento de
    diversos tonos de prueba

    • Enmascaramiento temporal. Experimento:
      en las mismas condiciones, ofrecer un tono enmascarador de 1
      KHz a 60 dB y un tono de prueba de 1,1 KHz a 40 dB. El tono de
      prueba no es audible. Parar el tono enmascarador y, con un
      pequeño retraso, el de prueba. Aumentar el retraso hasta
      que se distinga el tono de prueba.

    Figura 2.4. Variación del
    volumen audible con el retardo

    Realizar a la inversa, el enmascaramiento pre-temporal
    también existe, aunque en un tiempo muy inferior, casi
    despreciable. Repetir para diversas frecuencias y
    volúmenes y representar.

    Figura 2.5. Representación
    tridimensional del enmascaramiento

    Percepción

    La percepción auditiva está basada en el
    análisis de bandas criticas en la parte
    más interna del oído donde la transformación
    de frecuencia-espacio tiene lugar en la membrana basilar. El
    espectro de potencia no
    está representado en una escala lineal de frecuencias sino
    sobre bandas limitadas de frecuencia denominadas ‘Bandas
    Críticas’.

    El sistema de audición puede ser descripto como
    un banco de filtros
    pasabanda, constituidos por filtros pasabandas fuertemente
    solapados con anchos de bandas del orden de los 100 Hz para
    frecuencias por debajo de 500 Hz y del orden de 5 KHz para
    señales de frecuencias superiores.

    Hasta los 24 KHz son 26 las ‘Bandas
    Críticas’ a ser tenidas en cuenta.

    Enmascaramiento
    simultáneo (dominio frecuencia)

    El enmascaramiento simultáneo es un
    fenómeno que tiene lugar en el dominio de la frecuencia
    donde las señales de bajo nivel (por ejemplo podría
    ser un tono puro) puede volverse inaudible al oído humano
    si simultáneamente una señal más fuerte (por
    ejemplo un ruido de banda angosta) está lo suficientemente
    próximo en frecuencia.

    Figura 2.6

    Por ejemplo, para un tono de 1 KHz, un UMBRAL de
    ENMASCARAMIENTO puede ser medido, de manera que cualquier
    señal debajo del mismo no será audible. El umbral
    de enmascaramiento depende del nivel de presión sonora
    (SPL) (volumen de la señal) y de la frecuencia de la
    señal enmascarada.

    En este caso un tono de 1 KHz con una presión
    sonora de 60 dB presenta un umbral de enmascaramiento como el que
    se observa en la figura 2.6 por lo que cualquier señal
    cuyo nivel de presión sonora (SPL) se ubique por debajo de
    este umbral no será percibida por el oído humano.
    Cabe destacarse que la pendiente de la curva descripta por el
    umbral de enmascaramiento es mas pronunciada hacia las bajas
    frecuencias (de lo que deduce que frecuencias cercanas más
    altas que la enmascaradora pueden ser más
    fácilmente enmascarables). Por otra parte la distancia
    entre el nivel de enmascaramiento y el umbral de enmascaramiento
    es menor cuando un ruido enmascara un tono que a la
    inversa.

    Las contribuciones del ruido y de señales de bajo
    nivel son enmascaradas dentro y fuera de una determinada banda
    critica si su SPL está por debajo del UE. Los aportes
    producidos por el ruido pueden deberse al ruido de
    codificación, distorsión por aliasing y ruidos de
    transmisión.

    Sin la presencia del enmascarador una señal
    será inaudible si su SPL está por de bajo del
    umbral de silencio, el cual depende de la frecuencia y recorre un
    rango dinámico de 60 dB como se puede observar en la curva
    inferior de la figura anterior.

    Figura 2.7

    En la figura 2.7 se pueden ver mas detalles del umbral
    de enmascaramiento:

    La distancia entre el nivel de la señal
    enmascaradora (un tono en el ejemplo) y el umbral de
    enmascaramiento se la denomina Relación Señal
    Máscara (SMR). El valor
    máximo se halla en el borde izquierdo de la Banda Crítica
    (BC) (punto A). Dentro de la BC el ruido de codificación
    no será audible en tanto la Relación
    Señal-Ruido (SNR) sea mayor que la SMR.

    Consideremos por ahora a la SNR como la relación
    resultante de una cuantificación de m-bits, luego la
    distorsión perceptible en una dada subbanda es entonces
    medida como la Relación Ruido Máscara
    (NMR)

    NMR=SMR-SNR (en dB.). La NMR describe la diferencia
    entre el ruido de codificación en una determinada subbanda
    y el nivel donde una distorsión se vuelve audible; este
    valor (expresado en dB) debe ser negativo.

    Hasta ahora se ha descripto el enmascaramiento producido
    por una sola señal enmascaradora. Si la fuente de
    señal consta de numerosas señales enmascaradoras el
    Umbral Global de Enmascaramiento puede ser calculado como el
    aporte que realizan el resto de las bandas sobre la considerada
    obteniéndose el nivel de distorsiones perceptibles en
    función de la frecuencia.

    El cálculo
    del umbral global de enmascaramiento esta basado en la suma (en
    dB.) de los enmascaramientos individuales de todas las bandas
    comprendidas en la señal de audio o voz, suficiente para
    el análisis basado en bandas criticas y es determinado en
    audio a través de la Transformada Rápida de Fourier
    (FFT) de orden 512 o 1024.

    En un primer paso los umbrales de enmascaramiento
    individuales son calculados dependiendo del tipo de enmascarador
    (tono o ruido) y rango de frecuencia.

    Luego, el umbral total de enmascaramiento es calculado
    por adición de los niveles individuales de enmascaramiento
    a lo que se le adiciona también el umbral de silencio
    (esto hace que se asegure que el umbral global de enmascaramiento
    no se ubique nunca por debajo del de silencio)

    Los efectos del enmascaramiento sobrepasando los
    límites de las bandas críticas deben ser incluidos
    en el cálculo. Por último la Relación
    Señal Mascara Total (TSMR) se determina como la
    relación entre el máximo de potencia de la
    señal y el umbral de enmascaramiento Global (o como la
    diferencia en dB) (ver fig. anterior)

    Enmascaramiento
    temporal

    Junto con el enmascaramiento simultáneo, otros
    dos fenómenos juegan un importante rol en la
    percepción del audio en el ser humano:

    • Pre enmascaramiento
    • Post enmascaramiento

    Los efectos de enmascaramiento temporal tienen lugar
    antes y después que una señal comience y termine.
    Los efectos del Pre enmascaramiento tienen una duración de
    una décima parte del post enmascaramiento y según
    lo determinan nuevos estudios es bastante menor que ese
    valor.

    La duración del pos enmascaramiento esta en el
    orden de los 50 a 200 mseg.

    Ambos efectos son explotados en los algoritmos de
    codificación de ISO/MPEJ.

    Figura 2.8. Efectos del pre y post
    enmascaramiento

    Determinación del enmascaramiento
    temporal
    . Experimento: en las mismas condiciones, ofrecer
    un tono enmascarador de 1 KHz a 60 dB y un tono de prueba de 1,1
    KHz a 40 dB. El tono de prueba no es audible. Parar el tono
    enmascarador y, con un pequeño retraso, el de prueba.
    Aumentar el retraso hasta que se distinga el tono de
    prueba.

    Codificación
    Basada en la Percepción.

    En los codificadores basados en la percepción el
    proceso de codificación esta controlado por la
    Relación Señal a Mascara Global (GSMR) versus la
    curva de Frecuencia. Si la tasa de bits necesaria para un
    enmascaramiento completo de la distorsión esta disponible
    el esquema de codificación será transparente (la
    señal decodificada será indistinguible de la
    señal fuente). Cabe señalar que la tasa de bits a
    la salida del codificador se mantiene constante, pudiendo darse
    casos donde la tasa disponible excede los requerimientos de la
    codificación (y por ende la codificación se
    efectúa en forma optima). En otros casos la tasa
    disponible a la salida es insuficiente para las pretensiones del
    codificador (en cuyo caso la transmisión incluirá
    ruido de codificación). Si la tasa de bits para un
    enmascaramiento completo no esta disponible, entonces el umbral
    de enmascaramiento global sirve como una función de
    ponderación del error espectral; el espectro de error
    resultante tiene la forma del umbral de enmascaramiento
    global.

    En los diseños prácticos de
    codificación basada en la percepción, no se puede
    sobrepasar los límites establecidos por el enmascaramiento
    dado que el procesamiento posterior de la señal
    acústica (por ejemplo filtrados en ecualizadores) por el
    usuario final y los múltiples procesos de
    codificación y descodificación pueden desenmascarar
    el ruido. Además, dado que el
    conocimiento acerca del enmascaramiento auditivo es muy
    limitado, el modelo auditivo usado para en el diseño
    de un modelo particular de codificador basado en la
    percepción no es lo suficientemente preciso, por lo que,
    como un requerimiento adicional, se necesita un margen de
    seguridad en
    los diseños prácticos de codificadores.

    Mediciones de
    Calidad

    Las representaciones digitales de formas de ondas
    analógicas producen la introducción de alguna clase de
    distorsión la cual puede ser expresada:

    • A través de algún criterio subjetivo
      tal como lo es el ‘Mean Opinion Score’
      (Opinión de puntaje promedio) como una medida de
      similitud en la percepción.
    • Por un simple criterio objetivo como lo es la
      relación señal ruido (SNR) como medida de la
      similitud entre dos formas de ondas (la original y la
      reconstruida), o
    • A través de un criterio complejo que sirve
      como medición objetiva de la similitud
      percibida, el cual contempla hechos acerca de la
      percepción de un auditorio humano.

    El más popular de los métodos de evaluación
    es el ‘Puntaje de la opinión
    media’
    MOS (Mean Opinion
    Score
    ) donde individuos clasifican la calidad de los
    codificadores sobre una escala de calidad de N puntos.

    El resultado final de tales exámenes es un Juicio
    promediado (MOS). Dos escalas graduadas en 5 puntos se
    usan,

    • Una para medir la calidad de la señal
      y
    • Otra para medir sus diferencias respecto de la
      fuente. Un puntaje de 5 en la escala de diferencia indica que
      la señal reconstruida no puede ser diferenciada de la
      fuente (al oído humano), mientras que un puntaje de 4
      indica que la señal reconstruida si bien se diferencia,
      no resulta molesta la diferencia. La escala de diferencia
      resulta extremadamente útil sobre todo si los
      codificadores con pequeñas distorsiones deben ser
      evaluados.

    Los exámenes del formato ISO/MPEG han mostrado
    que los exámenes de Triple estímulo,
    referencia oculta, doble escondido
    , basados en tales
    evaluaciones (MOS) conducen a resultados fiables, no obstante
    pequeñas diferencias en calidad se han
    detectado.

    En estas pruebas tres
    señales A, B y C (Triple Stimulus) son escuchadas por
    oyentes adiestrados siendo:

    • A: siempre es la señal fuente
    • B y C son la señal reconstruida y la fuente
      pero tanto el oyente como el instructor de la prueba desconocen
      cual es una u otra (Double Blind) (Hidden
      reference).

    Los oyentes deben determinar si B o C son la fuente y en
    caso de poder
    distinguirlas calificar la diferencia (de 1 a 5).

    El lado negativo es que los resultados varían de
    acuerdo al panel de oyentes y al tiempo en que se realizan (por
    ser subjetivo) pudiendo los resultados variar mucho entre el
    promedio y determinados tipo de señal bajo
    prueba.

    No obstante los exámenes realizados por MPEG y
    CCIR con paneles adiestrados de oyentes condujeron a resultados
    similares y estables.

    Las medidas basadas en la percepción hacen uso de
    los umbrales de enmascaramiento derivados de la señal de
    ingreso, en orden de compararlos con el ruido de
    codificación actual del codificador. Resultados recientes
    han demostrados que tales medidas dan altas correlaciones entre
    los puntajes MOS y puntajes objetivos.

    Por ejemplo, la medición de la calidad de audio
    percibible se ha aplicado a señales de audio en el CCIR en
    pruebas de transmisión de sonido digital
    obteniéndose una correlación de 0,98 y una
    desviación estándar de 0,17.

    Otro conjunto de parámetros, incluyendo
    relaciones de ruido a máscara locales (local Noise to Mask
    relations) y promedio de todas las bandas críticas, han
    probado que es fácilmente implementable y lo
    suficientemente preciso, para resultar útil en el
    diseño del codificador y su evaluación. En el CCIR,
    los tests de codificación de audio arrojaron una
    correlación de 0,94 y una desviación
    estándar de 0,27.

    Figura 2.9. MOS de la Capa II (64 Kbps
    por canal)

    En muchos tests de escuchas, Layer III ha demostrado su
    elevada performance. En noviembre de 1991, tuvo lugar en
    Hannhover el primero de los tests de la aún incompleta
    implementación de Layer III en los estudios de la NDR. En
    éstos, Layer III probó ser notablemente superior a
    Layer II a igual tasa de bits, superando además a ASPEC el
    cual, hasta entonces, ostentaba la mejor calidad en codecs de 64
    Kbs por canal de audio.

    [a] Layer II y Layer III sin
    joint-stereo a 64 Kbs por canal de audio, solamente
    reproducción de altoparlantes.

    [b] Layer II y Layer III
    con joint-stereo a 64 Kbs por canal de
    audio, solamente reproducción de altoparlantes

    Figura 9.10 Resultados comparativos entre
    Layer II y Layer III en los tests del CCIR

    Para aplicaciones de transmisión de audio digital
    con codecs de bajo bitrate, se llevaron a cabo tests desde enero
    de 1992 a julio de 1992 en los que participaron
    práctimante todos los codecs disponibles hasta ese
    entonces. Se identificaron cuatro campos de aplicación,
    cada uno con diferentes requerimientos:

    1. Enlaces con una tasa de 180
      Kbits
      por canal de audio (codificados
      independientemente), con 20 KHz de ancho de banda y sin
      diferencias notables luego de 5 codecs en
      cascada.
    2. Enlaces con una tasa de 120
      Kbits
      por canal de audio (codificados
      independientemente), con 20 KHz de ancho de banda y sin
      diferencias notables luego de 3 codecs en
      cascada.
    3. Enlaces con una tasa de 128
      Kbits
      por canal de audio (codificados
      independientemente) o 96 Kbits (en joint
      stereo), con 20 KHz de ancho de banda y una calidad de sonido
      superior a 4 de acuerdo a la tabla del
      CCIR.
    4. Enlaces con una tasa de 60 Kbits
      por canal de audio (mono o joint stereo), con 15 KHz de ancho
      de banda y una calidad de sonido equivalente al formato PCM
      lineal de 14 bits.

    En todas las categorías los codecs ISO-MPEG Layer
    II y III obtuvieron los mejores resultados.

    En realidad, Layer III resultó ser el
    único codec que proveyó de una aceptable calidad de
    sonido para la codificación independiente a 60 Kbits/seg.
    Para el test calificado
    como: "VOZ MASCULINA" el valor medio en la escala de diferencias
    del CCIR fue de 4.4 (comparado con 2.4 en Layer II). En general,
    en tests con altos contenidos de pre-ecos (castañuelas o
    percusiones) el valor medido (según CCIR), fue de 3.6 para
    Layer III (comparado con 2.05 para Layer II). A manera de
    preservar una suficiente tasa para la transmisión de datos
    auxiliares (ancillary data), el test se efectuó con 60 Kbs
    (en vez de 64 Kbs).

    3 – Norma ISO/IEC 11172
    – 3 : Audio

    GENERALIDADES – El
    Estándar ISO/MPEG

    El estándar MPEG Audio contempla tres niveles
    diferentes de codificación – decodificación de la
    señal de audio, de los cuales sólo los dos primeros
    están totalmente terminados. El otro es aplicable, y de
    hecho se utiliza habitualmente, pero sigue abiertos a
    ampliaciones. Estos tres niveles son:

    • MPEG-1: "Codificación de
      imágenes en movimiento y audio asociado para medios de
      almacenamiento digital hasta 1’5 Mbit/s"
    • MPEG-2: "Codificación genérica
      de imágenes en movimiento e información de audio
      asociada"
    • MPEG-3: la planificación original contemplaba su
      aplicación a sistemas HDTV; finalmente fue incluido
      dentro de MPEG-2.
    • MPEG-4: "Codificación de objetos
      audiovisuales"

    A su vez, MPEG describe tres layers (capas) de
    codificación de audio denominados layer-1, layer-2 y
    layer-3. Del primero al tercero aumentan tanto la complejidad del
    codificador como la calidad del sonido a igual tasa de bits. Los
    tres son compatibles jerárquicamente, esto es, el
    decodificador layer-i es capaz de interpretar información
    producida por un codificador layer-i y todos los niveles por
    debajo del i. Así, un decodificador layer-3 acepta los
    tres niveles de codificación, mientras el layer-2
    sólo acepta el 1 y el 2.

    MPEG define, para cada layer, el formato del
    bitstream y el decodificador (que puede ser implementado de
    diferentes maneras). Con vistas a admitir futuras mejoras
    no se define el codificador, pero en un apartado
    informativo se da un ejemplo de codificador para cada uno de los
    layers. Hay que decir que tanto MPEG-1 como MPEG-2 emplean estos
    tres layers, pero este último añade nuevas
    características.

    ASPEC y MUSICAM , los
    padres de la norma ISO MPEG 1

    En julio de 1990, cuatro sistemas fueron testeados en
    la Radio Sueca
    (Swedish Radio):

    1. MUSICAM
    2. ASPEC
    3. ATRAC
    4. SB-ADPCM

    Al final de las pruebas, se consagraron 2
    ganadores:

    MUSICAM: por tener el puntaje general más alto, y
    ASPEC que consiguió la mejor calidad sonora, especialmente
    a bajas tasas de bits. Estos dos esquemas de codificación
    constituyeron los fundamentos para las tres capas de audio del
    estándar ISO MPEG 1.

    MUSICAM fue la base para las capas I y II a tal punto
    que la capa II es prácticamente idéntica al MUSICAM
    y Layer I es una versión simplificada de éste.
    Ambos, Layer I y II cumplieron los requerimientos de la ISO para
    la tasa de bits de 192 y 128 Kbps respectivamente para la primera
    mitad de 1991, por lo que su especificación quedó
    establecida y las aplicaciones pudieron comenzar a hacer uso de
    ésta.

    Layer III combina las mejores ideas de ASPEC y MUSICAM.
    El proceso de fusión
    requirió una cantidad de tiempo considerable, gran
    cantidad de modificaciones y nuevos desarrollos por lo que su
    especificación recién estuvo lista para los fines
    de la primera mitad de 1992. Los primeros productos comerciales
    para Layer III recién estuvieron disponibles en el
    mercado en
    1993.

    El
    codificador.

    Procesa la señal digital de audio (PCM) y genera
    el bitstream comprimido para el almacenamiento. El algoritmo del
    codificador no está estandarizado, y pueden ser utilizados
    varios medios, tales como la estimación del umbral de
    enmascaramiento auditivo, cuantificación y establecimiento
    de la escala (escalado) de la señal. De cualquier modo, la
    salida del codificador debe ser tal que el
    decodificador que cumpla con las especificaciones de la
    cláusula 2.4. de la norma producirá una
    señal de audio compatible para la aplicación
    propuesta.

    Estructura básica del
    codificador

    Las muestras de audio ingresan al codificador. El mapeo
    crea una representación filtrada y submuestreada de la
    tira de audio de entrada. Las muestras mapeadas pueden llamarse
    tanto muestras de subbanda (como en layer I y II) o muestras de
    subbandas transformadas (como en layer III) .

    Un modelo psicoacústico crea un conjunto de datos
    para controlar el cuantificador y codificación. Estos
    datos son diferentes dependiendo de la implementación
    actual del codificador. Una posibilidad es el uso de una
    estimación del umbral de enmascaramiento (UE) para
    efectuar el control de la
    cuantificación. El cuantificador y el bloque de
    codificación crean un conjunto de símbolos codificados con las muestras de
    entrada mapeadas. Nuevamente , este bloque puede depender del
    sistema de codificación. El bloque de empaquetado de la
    trama ensambla el bitstream actual desde la salida de datos de
    los otros bloques y le agrega información adicional (por
    ej. corrección de error) si es necesario.

    Hay 4 diferentes modos posibles :

    1. canal único (monofónico)
    2. doble canal (2 canales de audio independientes el uno
      del otro)
    3. estéreo (canal derecho e izquierdo de audio en
      un bitstream)
    4. joint_stereo (2 canales donde pueden explotarse
      redundancias e irrelevancias entre ambos)

    CAPAS
    (LAYERS)

    Dependiendo de la aplicación, capas diferentes
    del sistema de codificación con creciente complejidad de
    codificación y mejor performance pueden ser usadas. Un
    decodificador ISO/IEC 11172 de capa N es capaz de decodificar el
    bitstream codificado para esa capa y también para capas
    anteriores a la N.

    Capa 1 (Layer
    I).

    El codificador para Layer 1 usa bloques por subbanda
    fijos de 12 muestras diezmadas.

    El mapeado tiempo – frecuencia se realiza con un banco
    de filtros polifase con 32 subbandas. Los filtros polifase
    consisten en un conjunto de filtros con el mismo ancho de banda
    con interrelaciones de fase especiales que ofrecen una
    implementación eficiente del filtro subbanda. Se denomina
    filtro subbanda al que cubre todo el rango de frecuencias
    deseado. En general, los filtros polifase combinan una baja
    complejidad de computación con un diseño flexible y
    múltiples opciones de implementación.

    El modelo psicoacústico utiliza una FFT (Fast
    Fourier Transform) de 512 puntos para obtener información
    espectral detallada de la señal. El resultado de la
    aplicación de la FFT se utiliza para determinar los
    enmascaramientos en la señal, cada uno de los cuales
    produce un nivel de enmascaramiento, según la frecuencia,
    intensidad y tono. Para cada subbanda, los niveles individuales
    se combinan y forman uno global, que se compara con el
    máximo nivel de señal en la banda, produciendo el
    SMR que se introduce en el cuantizador.

    El bloque de cuantización y codificación
    examina las muestras de cada subbanda, encuentra el máximo
    valor absoluto y lo cuantiza con 6 bits. Este valor es el factor
    de escala de la subbanda. A continuación se determina la
    asignación de bits para cada subbanda minimizando el NMR
    (noise-to-mask ratio) total. Es posible que algunas
    subbandas con un gran enmascaramiento terminen con cero bits, es
    decir, no se codificará ninguna muestra. Por último
    las muestras de subbanda se cuantizan linealmente según el
    número de bits asignados a dicha subbanda
    concreta.

    El trabajo del empaquetador de trama es sencillo. La
    trama, según la definición ISO, es la menor parte
    del bitstream decodificable por sí misma. Cada trama
    empieza con una cabecera para sincronización y
    diferenciación, así como 16 bits opcionales de CRC
    para detección y corrección de errores. Se emplean,
    para cada subbanda, 4 bits para describir la asignación de
    bits y otros 6 para el factor de escala. El resto de bits en la
    trama se utilizan para la información de muestras, 384 en
    total, y con la opción de añadir cierta
    información adicional. A 48 Khz, cada trama lleva 8 ms de
    sonido.

    Cada factor de escala está representado por 6
    bits y es transmitido para cada bloque de subbanda a menos que la
    regla de asignación de bits indique que dicho bloque de
    subbanda y su factor de escala no necesitan ser
    transmitidos.

    Por cada bloque de 12 muestras se calcula la SMR a
    través de la FFT de 512 puntos.

    Para cada subbanda la asignación de bits
    selecciona un cuantificador uniforme de un conjunto de 15
    cuantificadores con M=2**m -1 niveles (m=0 o m=2…
    15bits).

    4 Bits se necesitan por bloque para la
    información de asignación de bits.

    Los tests subjetivos de la ISO/MPEG arrojaron un MOS
    (Mean Opinion Score) de 4,7 para una tasa de 192 Kb/s por canal
    monofónico y el peor fue de 4,4 para una de las
    pruebas.

    El mapeado tiempo-frecuencia se realiza con un banco de
    filtros polifase con 32 subbandas. Los filtros polifase consisten
    en un conjunto de filtros con el mismo ancho de banda con
    interrelaciones de fase especiales que ofrecen una
    implementación eficiente del filtro subbanda. Se denomina
    filtro subbanda al que cubre todo el rango de frecuencias
    deseado. En general, los filtros polifase combinan una baja
    complejidad de computación con un diseño flexible y
    múltiples opciones de implementación.

    El modelo psicoacústico utiliza una FFT (Fast
    Fourier Transform) de 512 puntos para obtener información
    espectral detallada de la señal. El resultado de la
    aplicación de la FFT se utiliza para determinar los
    enmascaramientos en la señal, cada uno de los cuales
    produce un nivel de enmascaramiento, según la frecuencia,
    intensidad y tono. Para cada subbanda, los niveles individuales
    se combinan y forman uno global, que se compara con el
    máximo nivel de señal en la banda, produciendo el
    SMR que se introduce en el cuantizador.

    El bloque de cuantización y codificación
    examina las muestras de cada subbanda, encuentra el máximo
    valor absoluto y lo cuantiza con 6 bits. Este valor es el factor
    de escala de la subbanda. A continuación se determina la
    asignación de bits para cada subbanda minimizando el NMR
    (noise-to-mask ratio) total. Es posible que algunas
    subbandas con un gran enmascaramiento terminen con cero bits, es
    decir, no se codificará ninguna muestra. Por último
    las muestras de subbanda se cuantizan linealmente según el
    número de bits asignados a dicha subbanda
    concreta.

    El trabajo del empaquetador de trama es sencillo. La
    trama, según la definición ISO, es la menor parte
    del bitstream decodificable por sí misma. Cada trama
    empieza con una cabecera para sincronización y
    diferenciación, así como 16 bits opcionales de CRC
    para detección y corrección de errores. Se emplean,
    para cada subbanda, 4 bits para describir la asignación de
    bits y otros 6 para el factor de escala. El resto de bits en la
    trama se utilizan para la información de muestras, 384 en
    total, y con la opción de añadir cierta
    información adicional. A 48 Khz, cada trama lleva 8 ms de
    sonido.

    Resumiendo: Incluye la división del
    mapeado básico de la señal de audio digital en 32
    subbandas, segmentación para el formateo de los datos,
    modelo psicoacústico y cuantización fija. El
    retraso mínimo teórico es de 19 ms.

    Capa 2 (Layer
    II).

    El mapeado de tiempo-frecuencia es idéntico al
    del layer 1.

    El codificador Layer 2 de la ISO/MPEG es
    básicamente similar al Layer 1 pero tiene una complejidad
    mayor con la que consigue una mejor performance, de acuerdo a
    tres modificaciones:

    La FFT es de orden 1024 con lo que se obtiene una
    resolución en frecuencia más fina para el
    cálculo de SMR global. El modelo psicoacústico es
    similar. En los demás aspectos, es
    idéntico.

    Si las características de la señal a
    codificar lo permiten, entonces tres muestras consecutivas (un
    triplet), pueden codificarse en una única palabra código
    (codeword) para su transmisión o
    almacenamiento.

    El factor de escala total se reduce por un factor de
    alrededor de 2; en cada subbanda bloques de 12 muestras se forman
    y factores de escala de 3 bloques adyacentes se calculan (lo cual
    implica 3 x 12 x 32= 1152 muestras de entrada son tenidas en
    cuenta). Dependiendo de sus valores relativos sólo uno,
    dos o los tres factores de escala son transmitidos. Solamente uno
    de los factores de escala tiene que ser transmitido si las
    diferencias son relativamente pequeñas y solamente el
    primero de los factores de escala adyacentes tiene que ser
    transmitido si el segundo tiene un valor más
    pequeño, como en el caso del pos – enmascaramiento puede
    ser aprovechado. En el caso de grandes cambios dinámicos
    en la señal todos los factores de escala pueden tener que
    ser usados. El factor de escala seleccionado o los factores de
    escala son nuevamente representados por seis bits. El modelo de
    los factores de escala transmitidos será codificado con
    2bit/subband en la información adyacente (side
    information) – denominado información de factor de escala
    selecto (SCFSI).

    Se provee una cuantificación más fina con
    una resolución de amplitud de hasta 16 bits (lo que reduce
    el ruido de codificación). Por otro lado, el número
    de cuantificadores disponibles decrece con el incremento del
    índice de subbanda, el cual mantiene pequeña la
    información lateral (side information). La
    codificación continúa como en Layer I.

    El bloque de cuantización y codificación
    también es similar, generando factores de escala de 6 bits
    para cada subbanda. Sin embargo, las tramas del layer II son tres
    veces más largas que las del layer I, de forma que se
    concede a cada subbanda tres factores de escala, y el codificador
    utiliza uno, dos o los tres, según la diferencia que haya
    entre ellos. La asignación de bits es similar a la del
    layer 1.

    El formateador de trama: la definición ISO de
    trama es la misma que en el punto anterior. Utiliza la misma
    cabecera y estructura de
    CRC que el layer 1. El número de bits que utilizan para
    describir la asignación de bits varía con las
    subbandas: 4 bits para las inferiores, 3 para las medias y dos
    para las superiores, adecuándose a las bandas
    críticas. Los factores de escala se codifican junto a un
    número de dos bits que indica si se utilizan uno, dos o
    los tres. Las muestras de subbanda se cuantizan y a
    continuación se asocian en grupos de tres,
    llamados gránulos. Cada uno se codifica con una palabra
    clave, lo que permite interceptar mucha más
    información redundante que en el layer 1. Cada trama
    contiene, pues, 1152 muestras PCM. A 48 Khz. cada trama lleva 24
    ms de sonido.

    En resumen: Incluye codificación
    adicional, factores de escala y diferente composición de
    trama. El retraso mínimo teórico es de 35
    ms.

    Capa 3 (Layer
    III).

    El esquema III es substancialmente más complicado
    que los dos anteriores e incluye una serie de mejoras. Su
    diagrama de
    flujos es conceptualmente semejante al visto para los otros dos
    esquemas, salvo que se realizan múltiples iteraciones para
    procesar los datos con el mayor nivel de calidad en un cierto
    tiempo, lo cual complica su diseño hasta el punto de que
    los diagramas ISO
    ocupan decenas de páginas.

    El mapeado de tiempo-frecuencia añade un nuevo
    banco de filtros, el DCT (Discrete Cosine Transform), que con el
    polifase forman el denominado filtro híbrido. Proporciona
    una resolución en frecuencia variable, 6×32 o 18×32
    subbandas, ajustándose mucho mejor a las bandas
    críticas de las diferentes frecuencias.

    El modelo psicoacústico es una
    modificación del empleado en el esquema II, y utiliza un
    método denominado predicción polinómica.
    Incluye los efectos del enmascaramiento temporal.

    El bloque de cuantización y codificación
    también emplea algoritmos muy sofisticados que permiten
    tramas de longitud variable. La gran diferencia con los otros dos
    esquemas es que la variable controlada es el ruido, a
    través de bucles iterativos que lo reducen al
    mínimo posible en cada paso.

    El formateador de trama: la definición de trama
    para este esquema según ISO varía respecto de la de
    los niveles anteriores: "mínima parte del bitstream
    decodificable mediante el uso de información principal
    adquirida previamente". Las tramas contienen información
    de 1152 muestras y empiezan con la misma cabecera de
    sincronización y diferenciación, pero la
    información perteneciente a una misma trama no se
    encuentra generalmente entre dos cabeceras. La longitud de la
    trama puede variarse en caso de necesidad. Además de
    tratar con esta información, el esquema III incluye
    codificación Huffman de longitud variable, un
    método de codificación entrópica que sin
    pérdida de información elimina redundancia. Los
    métodos de longitud variable se caracterizan, en general,
    por asignar palabras cortas a los eventos
    más frecuentes, dejando las largas para los más
    infrecuentes.

    Resumiendo: Incluye incremento de la
    resolución en frecuencia, basado en el uso de un banco de
    filtros híbrido. Cuantificación no uniforme,
    segmentación adaptativa y codificación
    entrópica de los valores cuantizados. El retraso
    mínimo teórico es de 59 ms.

    Cuadro comparativo de los 3
    esquemas (layers)

    La calidad viene dada del 1 al 5, siendo el 5 la
    superior (ver apartado 6). Hay que señalar que pese a los
    números de la norma ISO, el retraso típico
    acostumbra a ser tres veces mayor en la
    práctica.

    Decodificación

    El decodificador debe procesar el bitstream para
    reconstruir la señal de audio digital. La
    especificación de este elemento sí esta totalmente
    definida y debe seguirse en todos sus puntos. La figura ilustra
    el layer del decodificador.

    Figura 2: decodificador según la
    norma ISO 11172-3

    Los datos del bitstream son desempaquetados para
    recuperar las diversas partes de la información. El bloque
    de reconstrucción recompone la versión cuantizada
    de la serie de muestras mapeadas. El mapeador inverso transforma
    estas muestras de nuevo a PCM. 

    4 – La Trama de Audio

    Definición

    Trama (Layer I y
    II)

    Parte del bitstream que es decodificable por sí
    mismo. En Layer I contiene información de 384 muestras de
    audio mientras que en layer II de 1152. Comienza con una palabra
    de sincronismo y termina justo antes de la próxima palabra
    de sincronismo. Consiste en un número entero de slots (4
    bytes p/layer I y 1 byte p/layer II).

    Trama (Layer
    III)

    Parte del bitstream que es decodificable con el uso de
    la información principal (main information) previamente
    adquirida. Cada trama en layer III contiene información de
    1152 muestras. Aunque la distancia entre dos tramas consecutivas
    es número entero de slots (1 byte p/layer III) la
    información de audio perteneciente a una trama no
    está generalmente contenida entre dos palabras de
    sincronismo.

    Cabecera
    (Header)

    Cabecera: Parte del bitstream que contiene la
    sincronización e información de estado.

    Layer

     

    11

    Layer I

    10

    Layer II

    01

    Layer III

    00

    reserved

    Dentro de la cabecera se encuentran los sig.
    campos:

    • Syncword (Palabra de sincronismo) (12
      bits): "1111 1111 1111"
    • ID (1 bit): indica si la trama responde
      a la norma 11172 (ID=1) o no (ID=0)
    • Layer (2 bits): de acuerdo a su
      contenido indica:

    Para cambiar de capa se necesita un reset del
    decodificador de audio.

    • Protection_bit (1 bit): Indica si se ha
      introducido redundancia en el bitstream de audio para facilitar
      la detección y/o cancelación de
      errores:
    • 1 : indica que NO se adiciono redundancia
    • 0 : si se adicionó redundancia

    Partes: 1, 2, 3, 4, 5

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter