Diferencia entre revisiones de «Compresión de datos»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Sin resumen de edición
Esta obra contiene una traducción derivada del articulo respectivo de Wikipedia en inglés, concretamente la versión válida al dia de la traducción, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 3.0 Unported.)
Etiqueta: Enlaces a desambiguaciones
Línea 48: Línea 48:
* [[Algoritmo de compresión sin pérdida|Compresión sin pérdida]]: los datos antes y después de comprimirlos son exactos en la compresión sin pérdida. En el caso de la compresión sin pérdida una mayor compresión solo implica más tiempo de proceso. La [[tasa de bits]] siempre es [[Tasa de bits variable|variable]] en la compresión sin pérdida. Se utiliza principalmente en la compresión de texto.
* [[Algoritmo de compresión sin pérdida|Compresión sin pérdida]]: los datos antes y después de comprimirlos son exactos en la compresión sin pérdida. En el caso de la compresión sin pérdida una mayor compresión solo implica más tiempo de proceso. La [[tasa de bits]] siempre es [[Tasa de bits variable|variable]] en la compresión sin pérdida. Se utiliza principalmente en la compresión de texto.
* Un algoritmo de [[Algoritmo de compresión con pérdida|compresión con pérdida]] puede eliminar datos para disminuir aún más el tamaño, con lo que reduce la calidad. En la compresión con pérdida, la tasa de bits puede ser [[Tasa de bits constante|constante]] o variable. Una vez realizada la compresión, no se puede obtener la señal original, aunque sí una aproximación cuya semejanza con la original dependerá del tipo de compresión. Este tipo de compresión se da principalmente en imágenes, videos y sonidos. Además de estas funciones la compresión permite que los algoritmos usados para reducir las cadenas del código desechen información redundante de la imagen. Uno de los formatos que permite compensar esta perdida es el JPG, que emplea técnicas que suavizan los bordes y áreas que tienen un color similar permitiendo que la falta de información sea invisible a simple vista. Este método permite un alto grado de compresión con pérdidas en la imagen que, muchas veces, solo es visible mediante el zoom.
* Un algoritmo de [[Algoritmo de compresión con pérdida|compresión con pérdida]] puede eliminar datos para disminuir aún más el tamaño, con lo que reduce la calidad. En la compresión con pérdida, la tasa de bits puede ser [[Tasa de bits constante|constante]] o variable. Una vez realizada la compresión, no se puede obtener la señal original, aunque sí una aproximación cuya semejanza con la original dependerá del tipo de compresión. Este tipo de compresión se da principalmente en imágenes, videos y sonidos. Además de estas funciones la compresión permite que los algoritmos usados para reducir las cadenas del código desechen información redundante de la imagen. Uno de los formatos que permite compensar esta perdida es el JPG, que emplea técnicas que suavizan los bordes y áreas que tienen un color similar permitiendo que la falta de información sea invisible a simple vista. Este método permite un alto grado de compresión con pérdidas en la imagen que, muchas veces, solo es visible mediante el zoom.

== Usos ==
=== Imagen ===
{{Main|Compresión de imágenes}}

La [[codificación de entropía]] se originó en la década de 1940 con la introducción de la [[codificación Shannon-Fano]],<ref name="Shannon"/> la base de la [[codificación Huffman]] que se desarrolló en 1950.<ref name="Huffman"/> La [[codificación por transformada]] se remonta a finales de la década de 1960, con la introducción de la [[transformada rápida de Fourier]] (FFT) en 1968 y la [[transformada Hadamard]] en 1969.<ref name="Hadamard"/>

Una importante técnica de [[compresión de imágenes]] es la [[transformada discreta del coseno]] (DCT), una técnica desarrollada a principios de la década de 1970.<ref name="Ahmed"/> La DCT es la base del [[JPEG]], un formato de [[compresión con pérdidas]] que fue introducido por el [[Joint Photographic Experts Group]] (JPEG) en 1992.<ref name="t81">{{cite web |title=T.81 - COMPRESIÓN DIGITAL Y CODIFICACIÓN DE IMÁGENES FIJAS DE TONO CONTINUO - REQUISITOS Y DIRECTRICES |url=https://www.w3.org/Graphics/JPEG/itu-t81.pdf |publisher=[[CCITT]] |date=Septiembre 1992 |access-date=12 Julio 2019}}</ref> JPEG reduce en gran medida la cantidad de datos necesarios para representar una imagen a costa de una reducción relativamente pequeña de la calidad de la misma y se ha convertido en el [[formato de archivo de imagen]] más utilizado.<ref>{{cite web |title=El formato de imagen JPEG explicado |url=https://home.bt.com/tech-gadgets/photography/what-is-a-jpeg-11364206889349 |website=[[BT.com]] |editorial=[[BT Group]] |access-date=5 de agosto de 2019 |date=31 de mayo de 2018 |archive-date=5 de agosto de 2019 |archive-url=https://web.archive.org/web/20190805194553/https://home.bt.com/tech-gadgets/photography/what-is-a-jpeg-11364206889349 |url-status=dead }}</ref><ref>{cite news |last1=Baraniuk |first1=Chris |title=Las protecciones de copia podrían llegar a los JPEG |url=https://www.bbc.co.uk/news/technology-34538705 |access-date=13 de septiembre de 2019 |work=[[BBC News]] |agencia=[[BBC]] |fecha=15 de octubre de 2015}}</ref> Su algoritmo de compresión altamente eficiente basado en la DCT fue en gran parte responsable de la amplia proliferación de [[imagen digital]]s y [[foto digital]]s.<ref name="Atlantic">{{cite web |title=¿Qué es un JPEG? El objeto invisible que ves todos los días |url=https://www.theatlantic.com/technology/archive/2013/09/what-is-a-jpeg-the-invisible-object-you-see-every-day/279954/ |access-date=13 de septiembre de 2019 |website=[[The Atlantic]] |fecha=24 de septiembre de 2013}}</ref>

[[Lempel-Ziv-Welch]] (LZW) es un algoritmo de [[compresión sin pérdidas]] desarrollado en 1984. Se utiliza en el formato [[GIF]], introducido en 1987.<ref name="cloanto">{{cite web|url=https://mike.pub/19950127-gif-lzw|title=La controversia del GIF: A Software Developer's Perspective|access-date=26 May 2015}</ref> [[DEFLATE]], un algoritmo de compresión sin pérdidas especificado en 1996, se utiliza en el formato [[Portable Network Graphics]] (PNG).<ref name="IETF">{{cite IETF |title=DEFLATE Compressed Data Format Specification version 1.3 |rfc=1951 |section=Abstract |page=1 |author=L. Peter Deutsch |author-link=L. Peter Deutsch |date=Mayo 1996 |publisher=[[Internet Engineering Task Force|IETF]] |access-date=2014-04-23}}</ref>

La [[compresión wavelet]], el uso de [[wavelets]] en la compresión de imágenes, comenzó tras el desarrollo de la codificación DCT.<ref name="Hoffman"/> El estándar [[JPEG 2000]] se introdujo en el año 2000.<ref>{{cite book |last1=Taubman |first1=David |last2=Marcellin |first2=Michael |title=Fundamentos, estándares y práctica de la compresión de imágenes JPEG2000: Fundamentos, normas y práctica de la compresión de imágenes |date=2012 |publisher=[[Springer Science & Business Media]] |isbn=9781461507994 |url=https://books.google.com/books?id=y7HeBwAAQBAJ&pg=PA402}</ref> A diferencia del algoritmo DCT utilizado por el formato JPEG original, JPEG 2000 utiliza en su lugar algoritmos de [[transformada de ondícula discreta]] (DWT).<ref name="Unser"/><ref>{cite web |last1=Sullivan |first1=Gary |title=Características generales y consideraciones de diseño para la codificación de vídeo de subbanda temporal |publicador=[[Video Coding Experts Group]] |website=[[UIT-T]] |fecha=8-12 de diciembre de 2003 |url=https://www.itu.int/wftp3/av-arch/video-site/0312_Wai/VCEG-U06.doc |fecha de acceso=13 de septiembre de 2019}}</ref><ref>{{cite book |last1=Bovik |first1=Alan C. |title=La guía esencial del procesamiento de vídeo |date=2009 |publisher=[[Academic Press]] |isbn=9780080922508 |page=355 |url=https://books.google.com/books?id=wXmSPPB_c_0C&pg=PA355}}</ref> La tecnología JPEG 2000, que incluye la extensión [[Motion JPEG 2000]], fue seleccionada como el [[estándar de codificación de vídeo]] para el [[cine digital]] en 2004.<ref>{{cite el libro |last1=Swartz |first1=Charles S. |title=Understanding Digital Cinema: A Professional Handbook |date=2005 |publisher=[[Taylor & Francis]] |isbn=9780240806174 |page=147 |url=https://books.google.com/books?id=tYw3ehoBnjkC&pg=PA147}}</ref>

=== Audio ===
{{véase también|Formato de codificación de audio|Códec de audio}}
La compresión de datos de audio, que no debe confundirse con la [[compresión de rango dinámico]], tiene el potencial de reducir el [[ancho de banda (informática)|ancho de banda]] y los requisitos de almacenamiento de los datos de audio. [Los algoritmos de compresión de audio se implementan en [[software]] como [[códecs]] de audio. Tanto en la compresión con pérdidas como en la compresión sin pérdidas, se reduce la [[Redundancia (teoría de la información)|redundancia de la información]], utilizando métodos como la [[Teoría de la codificación|codificación]], la [[Cuantización (procesamiento de la señal)|cuantización]], la [[transformada discreta del coseno]] y la [[predicción lineal]] para reducir la cantidad de información utilizada para representar los datos sin comprimir.

Los algoritmos de compresión de audio con pérdidas proporcionan una mayor compresión y se utilizan en numerosas aplicaciones de audio, como [[Vorbis]] y [[MP3]]. Estos algoritmos se basan casi todos en la [[psicoacústica]] para eliminar o reducir la fidelidad de los sonidos menos audibles, reduciendo así el espacio necesario para almacenarlos o transmitirlos. <ref name="mahdi53"/><ref>{{cite journal |last1=Cunningham |first1=Stuart |last2=McGregor |first2=Iain |title=Evaluación subjetiva de la música comprimida con el códec ACER en comparación con AAC, MP3 y PCM sin comprimir |journal=International Journal of Digital Multimedia Broadcasting |volume=2019 |pages=1-16 |date=2019 |language=en|doi=10. 1155/2019/8265301 |doi-access=free }}</ref>

La compensación aceptable entre la pérdida de calidad de audio y el tamaño de transmisión o almacenamiento depende de la aplicación. Por ejemplo, un [[disco compacto]] (CD) de 640 MB contiene aproximadamente una hora de música de [[alta fidelidad]] sin comprimir, menos de 2 horas de música comprimida sin pérdidas o 7 horas de música comprimida en el formato [[MP3]] a una [[tasa de bits]] media. Una grabadora de sonido digital puede almacenar normalmente unas 200 horas de habla claramente inteligible en 640 MB.<ref name="Olympus WS-120"/>

La compresión de audio sin pérdidas produce una representación de los datos digitales que puede descodificarse en un duplicado digital exacto del original. Los ratios de compresión se sitúan en torno al 50-60% del tamaño original,<ref name="FLAC comparison"/> que es similar a los de la compresión genérica de datos sin pérdidas. Los códecs sin pérdidas utilizan el [[ajuste de curvas]] o la predicción lineal como base para estimar la señal. Los parámetros que describen la estimación y la diferencia entre la estimación y la señal real se codifican por separado.<ref name="FLAC overview"/>

Existen varios formatos de compresión de audio sin pérdidas. Véase [[Lista de códecs#Compresión sin pérdidas|lista de códecs sin pérdidas]] para obtener una lista. Algunos formatos están asociados a un sistema distinto, como [[Direct Stream Transfer]], utilizado en [[Super Audio CD]] y [[Meridian Lossless Packing]], utilizado en [[DVD-Audio]], [[Dolby TrueHD]], [[Blu-ray]] y [[HD DVD]].

Algunos [[formatos de archivo de audio]] presentan una combinación de un formato con pérdidas y una corrección sin pérdidas; esto permite eliminar la corrección para obtener fácilmente un archivo con pérdidas. Estos formatos incluyen [[MPEG-4 SLS]] (Scalable to Lossless), [[WavPack]] y [[OptimFROG DualStream]].

Cuando se van a procesar archivos de audio, ya sea por compresión posterior o para [[Edición de audio|edición]], es deseable trabajar a partir de un original inalterado (sin comprimir o comprimido sin pérdidas). El procesamiento de un archivo comprimido sin pérdidas para algún fin suele producir un resultado final inferior a la creación del mismo archivo comprimido a partir de un original sin comprimir. Además de para la edición o la mezcla de sonido, la compresión de audio sin pérdidas se utiliza a menudo para el almacenamiento de archivos, o como copias maestras.

==== Compresión de audio con pérdidas ====
[File:AudiodatenkompressionManowarThePowerOfThySword.jpg|thumb|Comparación de [[espectrogramas]] de audio en un formato sin comprimir y en varios formatos con pérdidas. Los espectrogramas con pérdidas muestran [[bandlimiting]] de las frecuencias más altas, una técnica común asociada a la compresión de audio con pérdidas]].

La compresión de audio con pérdidas se utiliza en una amplia gama de aplicaciones. Además de las aplicaciones independientes de reproducción de archivos en reproductores MP3 u ordenadores, los flujos de audio comprimidos digitalmente se utilizan en la mayoría de los DVD de vídeo, la televisión digital, los medios de transmisión en [[Internet]], la radio por satélite y por cable, y cada vez más en las emisiones de radio terrestre. La compresión con pérdidas suele lograr una compresión mucho mayor que la compresión sin pérdidas, al descartar los datos menos críticos basándose en optimizaciones [[psicoacústicas]].<ref name="Jaiswal"/>

La psicoacústica reconoce que no todos los datos de un flujo de audio pueden ser percibidos por el [[sistema auditivo]] humano. La mayor parte de la compresión con pérdidas reduce la redundancia identificando primero los sonidos perceptualmente irrelevantes, es decir, los sonidos que son muy difíciles de oír. Ejemplos típicos son las frecuencias altas o los sonidos que se producen al mismo tiempo que los sonidos más fuertes. Esos sonidos irrelevantes se codifican con menor precisión o no se codifican en absoluto.

Debido a la naturaleza de los algoritmos con pérdidas, la [[calidad del audio]] sufre una [[pérdida de generación digital]] cuando se descomprime y recomprime un archivo. Esto hace que la compresión con pérdidas sea inadecuada para almacenar los resultados intermedios en aplicaciones profesionales de ingeniería de audio, como la edición de sonido y la grabación multipista. Sin embargo, los formatos con pérdidas, como el [[MP3]], son muy populares entre los usuarios finales, ya que el tamaño del archivo se reduce al 5-20% del tamaño original y un megabyte puede almacenar aproximadamente un minuto de música con la calidad adecuada.

===== Métodos de codificación =====
Para determinar qué información de una señal de audio es irrelevante desde el punto de vista perceptivo, la mayoría de los algoritmos de compresión con pérdidas utilizan transformaciones como la [[transformada discreta del coseno]] (MDCT) para convertir las formas de onda muestreadas en el [[dominio del tiempo]] en un dominio de transformación, normalmente el [[dominio de la frecuencia]]. Una vez transformadas, las frecuencias de los componentes pueden priorizarse según su audibilidad. La audibilidad de los componentes espectrales se evalúa utilizando el [[umbral absoluto de audición]] y los principios de [[enmascaramiento simultáneo]]-el fenómeno en el que una señal es enmascarada por otra señal separada por la frecuencia-y, en algunos casos, [[enmascaramiento temporal]]-en el que una señal es enmascarada por otra señal separada por el tiempo. También se pueden utilizar los [[contornos de igual sonoridad]] para ponderar la importancia perceptiva de los componentes. Los modelos de la combinación oído-cerebro humano que incorporan estos efectos suelen denominarse [[modelo psicoacústico]]s.<ref name="faxin47"/>

Otros tipos de compresores con pérdidas, como la [[codificación predictiva lineal]] utilizada con el habla, son codificadores basados en la fuente. La LPC utiliza un modelo del tracto vocal humano para analizar los sonidos del habla e inferir los parámetros utilizados por el modelo para producirlos momento a momento. Estos parámetros cambiantes se transmiten o almacenan y se utilizan para impulsar otro modelo en el descodificador que reproduce el sonido.

Los formatos con pérdidas se utilizan a menudo para la distribución de audio en streaming o la comunicación interactiva (como en las redes de telefonía móvil). En estas aplicaciones, los datos deben descomprimirse a medida que fluyen, en lugar de hacerlo después de que se haya transmitido todo el flujo de datos. No todos los códecs de audio pueden utilizarse para aplicaciones de streaming.<ref name="Jaiswal"/>

La [[Latencia (ingeniería)|Latencia]] es introducida por los métodos utilizados para codificar y decodificar los datos. Algunos códecs analizan un segmento más largo, llamado ''trama'', de los datos para optimizar la eficiencia, y luego lo codifican de manera que se requiera un segmento más grande de datos a la vez para decodificar. La latencia inherente al algoritmo de codificación puede ser crítica; por ejemplo, cuando hay una transmisión bidireccional de datos, como en una conversación telefónica, los retrasos significativos pueden degradar seriamente la calidad percibida.

A diferencia de la velocidad de compresión, que es proporcional al número de operaciones que requiere el algoritmo, aquí la latencia se refiere al número de muestras que hay que analizar antes de procesar un bloque de audio. En el caso mínimo, la latencia es de cero muestras (por ejemplo, si el codificador/decodificador simplemente reduce el número de bits utilizados para cuantificar la señal). Los algoritmos del dominio del tiempo, como el LPC, también suelen tener latencias bajas, de ahí su popularidad en la codificación del habla para la telefonía. Sin embargo, en algoritmos como el MP3, hay que analizar un gran número de muestras para implementar un modelo psicoacústico en el dominio de la frecuencia, y la latencia es del orden de 23&nbsp;ms.

===== Codificación del habla =====
La [[codificación del habla]] es una categoría importante de la compresión de datos de audio. Los modelos perceptivos utilizados para estimar qué aspectos del habla puede escuchar el oído humano suelen ser algo diferentes de los utilizados para la música. El rango de frecuencias necesario para transmitir los sonidos de una voz humana es normalmente mucho más estrecho que el necesario para la música, y el sonido es normalmente menos complejo. Por ello, la voz puede codificarse con alta calidad utilizando una tasa de bits relativamente baja.

Esto se consigue, en general, mediante una combinación de dos enfoques:
* Codificar sólo los sonidos que podría emitir una sola voz humana.
* Desechar la mayor parte de los datos de la señal, conservando sólo lo suficiente para reconstruir una voz "inteligible" en lugar de toda la gama de frecuencias del oído humano.

Los primeros algoritmos utilizados en la codificación del habla (y en la compresión de datos de audio en general) fueron el [[algoritmo A-law]] y el [[algoritmo μ-law]].

==== Historia ====
[[Archivo:Placa-audioPC-925.jpg|derecha|thumb|Solidyne 922: La primera [[tarjeta de sonido]] comercial de compresión de bits de audio para PC, 1990]]

Las primeras investigaciones sobre audio se realizaron en los [[Laboratorios Bell]]. Allí, en 1950, [[C. Chapin Cutler]] presentó la patente de la [[modulación diferencial por código de impulsos]] (DPCM).<ref name="DPCM"/> En 1973, P. Cummiskey, [[Nikil Jayant|Nikil S. Jayant]] y [[James L. Flanagan]] introdujeron la [[DPCM adaptativa]] (ADPCM).<ref>{cite journal|doi=10.1002/j.1538-7305 .1973.tb02007.x|title=Cuantización adaptativa en la codificación PCM diferencial del habla|year=1973|last1=Cummiskey|first1=P.|last2=Jayant|first2=N. S.|último3=Flanagan|primero3=J. L.|journal=Bell System Technical Journal|volumen=52|emisión=7|páginas=1105-1118}}</ref><ref>{cite journal |last1=Cummiskey |first1=P. |last2=Jayant |first2=Nikil S. |last3=Flanagan |first3=J. L. |title=Cuantización adaptativa en la codificación PCM diferencial del habla |journal=The Bell System Technical Journal |date=1973 |volume=52 |issue=7 |pages=1105-1118 |doi=10.1002/j.1538-7305.1973.tb02007.x |issn=0005-8580}}</ref>

La [[codificación perceptiva]] se utilizó por primera vez para la compresión de la [[codificación del habla]], con la [[codificación predictiva lineal]] (LPC).<ref name="Schroeder2014">{{cite book |last1=Schroeder |first=Manfred R. |title=Acústica, información y comunicación: Volumen conmemorativo en honor de Manfred R. Schroeder |fecha=2014 |editorial=Springer |isbn=9783319056609 |capítulo=Laboratorios Bell |página=388 |capítulo-url=https://books.google.com/books? id=d9IkBAAAQBAJ&pg=PA388}}</ref> Los conceptos iniciales de LPC se remontan a los trabajos de [[Fumitada Itakura]] ([[Universidad de Nagoya]]) y Shuzo Saito ([[Nippon Telegraph and Telephone]]) en 1966.<ref>{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Parte II de la Codificación Predictiva Lineal y el Protocolo de Internet |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203-303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> Durante la década de 1970, [[Bishnu S. Atal]] y [[Manfred R. Schroeder]] en [[Bell Labs]] desarrollaron una forma de LPC llamada [[codificación predictiva adaptativa]] (APC), un algoritmo de codificación perceptiva que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de los años ochenta con el algoritmo de [[predicción lineal excitada por código]] (CELP), que logró una [[relación de compresión]] significativa para su época. <ref name="Schroeder2014"/> La codificación perceptual es utilizada por los formatos modernos de compresión de audio como [[MP3]]<ref name="Schroeder2014"/> y [[Advanced Audio Codec|AAC]].

La [[Transformación de coseno discreto]] (DCT), desarrollada por [[N. Ahmed|Nasir Ahmed]], T. Natarajan y [[K. R. Rao]] en 1974,<ref name="DCT"/> proporcionó la base para la [[transformada discreta del coseno modificada]] (MDCT) utilizada por los formatos modernos de compresión de audio como el MP3,<ref name="Guckert">{{cite web |last1=Guckert |first1=John |title=El uso de la FFT y la MDCT en la compresión de audio MP3 |url=http://www. math.utah.edu/~gustafso/s2012/2270/web-projects/Guckert-audio-compression-svd-mdct-MP3.pdf |website=[[Universidad de Utah]] |fecha=Primavera 2012 |fecha de acceso=14 de julio de 2019}}</ref> [[Dolby Digital]],<ref name="Luo">{{cite el libro |last1=Luo |first1=Fa-Long |title=Normas de difusión multimedia móvil: Tecnología y práctica |fecha=2008 |editorial=[[Springer Science & Business Media]] |isbn=9780387782638 |page=590 |url=https://books.google.com/books?id=l6PovWat8SMC&pg=PA590}}</ref><{cite journal |last1=Britanak |first1=V. |title=Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3 |journal=IEEE Transactions on Audio, Speech, and Language Processing |date=2011 |volume=19 |issue=5 |pages=1231-1241 |doi=10.1109/TASL.2010 .2087755|s2cid=897622 }}</ref> y AAC.<ref name=brandenburg>{{cite web|url=http://graphics.ethz.ch/teaching/mmcom12/slides/mp3_and_aac_brandenburg.pdf|title=Explicación de MP3 y AAC|last=Brandenburg|first=Karlheinz|year=1999|url-status=live|archive-url=https://web. archive.org/web/20170213191747/https://graphics.ethz.ch/teaching/mmcom12/slides/mp3_and_aac_brandenburg.pdf|archive-date=2017-02-13}</ref> El MDCT fue propuesto por J. P. Princen, A. W. Johnson y A. B. Bradley en 1987,<ref>{cite book|doi=10.1109/ICASSP.1987 .1169405|capítulo=Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados en la cancelación de aliasing en el dominio del tiempo|title=ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing|year=1987|last1=Princen|first1=J.|last2=Johnson|first2=A.|last3=Bradley|first3=A.|volume=12|pages=2161-2164|s2cid=58446992}}</ref> tras un trabajo anterior de Princen y Bradley en 1986.<ref>{{cite journal|doi=10.1109/TASSP.1986 .1164954|title=Diseño de banco de filtros de análisis/síntesis basado en la cancelación de aliasing en el dominio del tiempo|year=1986|last1=Princen|first1=J.|last2=Bradley|first2=A.|journal=IEEE Transactions on Acoustics, Speech, and Signal Processing|volume=34|issue=5|pages=1153-1161}}</ref>

El primer sistema comercial de [[automatización de emisiones]] de audio del mundo fue desarrollado por Oscar Bonello, un profesor de ingeniería de la [[Universidad de Buenos Aires]].<ref name="Solidyne"/>{fv|reason=Esta fuente autopublicada no es lo suficientemente buena como para verificar esta significativa primicia.|date=Octubre 2021}} En 1983, utilizando el principio psicoacústico del enmascaramiento de las bandas críticas publicado por primera vez en 1967,<ref name="Zwicker"/> comenzó a desarrollar una aplicación práctica basada en el recién desarrollado ordenador [[IBM PC]], y el sistema de automatización de la radiodifusión fue lanzado en 1987 bajo el nombre de [[Audicom]]. Veinte años después, casi todas las emisoras de radio del mundo utilizaban una tecnología similar fabricada por varias empresas.

En febrero de 1988 se publicó un compendio bibliográfico sobre una gran variedad de sistemas de codificación de audio en el ''Journal on Selected Areas in Communications'' (''JSAC'') del IEEE. Aunque había algunos artículos de antes, esta colección documentaba toda una variedad de codificadores de audio acabados y en funcionamiento, casi todos ellos utilizando técnicas perceptivas y algún tipo de análisis de frecuencia y codificación sin ruido de fondo.<ref name="Possibilities"/>

=== Vídeo ===
{{véase también|Formato de codificación de vídeo|Códec de vídeo}}
El [[Vídeo sin comprimir]] requiere una [[Vídeo sin comprimir#Tasa de almacenamiento y de datos para el vídeo sin comprimir|tasa de datos]] muy alta. Aunque los códecs [[Lista de códecs#Compresión de vídeo sin pérdidas|Compresión de vídeo sin pérdidas]] funcionan con un factor de compresión de 5 a 12, un vídeo típico de compresión con pérdidas [[H.264/MPEG-4 AVC|H.264]] tiene un factor de compresión de entre 20 y 200.<ref name="MSU2007"/>

Las dos técnicas clave de compresión de vídeo utilizadas en los [[estándares de codificación de vídeo]] son la [[transformada de coseno discreto]] (DCT) y la [[compensación de movimiento]] (MC). La mayoría de los estándares de codificación de vídeo, como los formatos [[H.26x]] y [[MPEG]], suelen utilizar la codificación de vídeo DCT con compensación de movimiento (compensación de movimiento en bloque).<ref>{{cite book |last1=Chen |first1=Jie |last2=Koc |first2=Ut-Va |last3=Liu |first3=KJ Ray |title=Diseño de sistemas de codificación de vídeo digital: Un enfoque completo de dominio comprimido |date=2001 |publisher=[[CRC Press]] |isbn=9780203904183 |página=71 |url=https://books.google.com/books?id=LUzFKU3HeegC&pg=PA71}}</ref><ref name="Li">{{cite book |last1=Li |first1=Jian Ping |title=Proceedings of the International Computer Conference 2006 on Wavelet Active Media Technology and Information Processing: Chongqing, China, 29-31 de agosto de 2006 |date=2006 |publisher=[[World Scientific]] |isbn=9789812709998 |page=847 |url=https://books.google.com/books?id=FZiK3zXdK7sC&pg=PA847}}</ref>

La mayoría de los códecs de vídeo se utilizan junto con las técnicas de compresión de audio para almacenar los flujos de datos separados pero complementarios como un paquete combinado utilizando los llamados ''[[formato contenedor digital|formato contenedor]]s''.<ref name="CSIP"/>

==== Teoría de la codificación ====
Los datos de vídeo pueden representarse como una serie de fotogramas de imágenes fijas. Estos datos suelen contener abundantes cantidades de [[redundancia (teoría de la información)|redundancia]] espacial y temporal. Los algoritmos de compresión de vídeo intentan reducir la redundancia y almacenar la información de forma más compacta.

La mayoría de los [[formatos de compresión de vídeo]] y [[códecs de vídeo|códecs]] explotan la redundancia espacial y temporal (por ejemplo, mediante la codificación de diferencias con [[compensación de movimiento]]). Las similitudes pueden codificarse almacenando sólo las diferencias entre, por ejemplo, fotogramas temporalmente adyacentes (codificación intercuadro) o píxeles espacialmente adyacentes (codificación intracuadro). La compresión [[interframe|Inter-frame]] (una [[codificación delta]] temporal) (re)utiliza los datos de uno o más fotogramas anteriores o posteriores de una secuencia para describir el fotograma actual. La [[codificación intracuadro]], por el contrario, utiliza sólo datos del cuadro actual, siendo en realidad una [[compresión de imagen]].<ref name="faxin47"/>

Los [[Formato de codificación de vídeo#Formatos de codificación de vídeo intra-frame|formatos de codificación de vídeo intra-frame]] utilizados en las videocámaras y en la edición de vídeo emplean una compresión más simple que utiliza sólo la predicción intra-frame. Esto simplifica el software de edición de vídeo, ya que evita que un fotograma comprimido se refiera a datos que el editor ha eliminado.

Normalmente, la compresión de vídeo emplea además técnicas de [[compresión con pérdidas]] como la [[cuantización (procesamiento de imágenes)|cuantización]] que reducen aspectos de los datos de origen que son (más o menos) irrelevantes para la percepción visual humana explotando características perceptivas de la visión humana. Por ejemplo, las pequeñas diferencias de color son más difíciles de percibir que los cambios de brillo. Los algoritmos de compresión pueden promediar un color a través de estas áreas similares de una manera similar a los utilizados en la compresión de imágenes [[JPEG]].<ref name="TomLane"/> Como en toda compresión con pérdidas, hay un [[compromiso]] entre la [[calidad de vídeo]] y la [[tasa de bits]], el coste de procesar la compresión y la descompresión, y los requisitos del sistema. Los vídeos muy comprimidos pueden presentar [[artefactos de compresión]] visibles o molestos.

Otros métodos distintos de los formatos de transformación basados en la DCT, como la [[compresión fractal]], la [[búsqueda de coincidencias]] y el uso de una [[transformada wavelet discreta]] (DWT), han sido objeto de algunas investigaciones, pero no suelen utilizarse en productos prácticos. La [[compresión wavelet]] se utiliza en codificadores de imágenes fijas y de vídeo sin compensación de movimiento. El interés por la compresión fractal parece estar disminuyendo, debido a los recientes análisis teóricos que muestran una falta de eficacia comparativa de tales métodos.<ref name="faxin47"/>

===== Codificación entre fotogramas =====
{{main|Interframe}}
{{véase|Compensación de movimiento}}

En la codificación entre fotogramas, se comparan los fotogramas individuales de una secuencia de vídeo de un fotograma a otro, y el [[códec de vídeo|códec de compresión de vídeo]] registra el [[fotograma residual|diferencias]] respecto al fotograma de referencia. Si el fotograma contiene áreas en las que no se ha movido nada, el sistema puede simplemente emitir un breve comando que copie esa parte del fotograma anterior en el siguiente. Si hay secciones del fotograma que se mueven de forma sencilla, el compresor puede emitir un comando (ligeramente más largo) que indique al descompresor que desplace, rote, aclare u oscurezca la copia. Este comando más largo sigue siendo mucho más corto que los datos generados por la compresión intracuadro. Normalmente, el codificador también transmite una señal de residuo que describe las restantes diferencias más sutiles con respecto a las imágenes de referencia. Utilizando la codificación de entropía, estas señales de residuo tienen una representación más compacta que la señal completa. En las zonas de vídeo con más movimiento, la compresión debe codificar más datos para mantener el ritmo del mayor número de píxeles que cambian. Normalmente, durante las explosiones, las llamas, las bandadas de animales y en algunas tomas panorámicas, el detalle de alta frecuencia provoca una disminución de la calidad o un aumento de la [[tasa de bits variable]].

==== Formatos de transformación híbridos basados en bloques ====
{{Ver|Transformación discreta del coseno}}
[[File:Hybrid video encoder processing stages.svg|thumb|upright=2|Etapas de procesamiento de un codificador de vídeo típico]]
En la actualidad, casi todos los métodos de compresión de vídeo más utilizados (por ejemplo, los que figuran en las normas aprobadas por la [[UIT-T]] o la [[Organización Internacional de Normalización|ISO]]) comparten la misma arquitectura básica que se remonta a la norma [[H.261]], estandarizada en 1988 por la UIT-T. Se basan principalmente en la DCT, aplicada a bloques rectangulares de píxeles vecinos, y en la predicción temporal mediante [[vectores de movimiento]], así como, actualmente, en una etapa de filtrado en bucle.

En la etapa de predicción, se aplican varias técnicas de [[deduplicación de datos|deduplicación]] y de codificación de diferencias que ayudan a decorrelacionar los datos y a describir los nuevos datos basándose en los ya transmitidos.

A continuación, los bloques rectangulares de datos de [[píxeles]] restantes se transforman en el dominio de la frecuencia. En la principal etapa de procesamiento con pérdidas, los datos del dominio de la frecuencia se cuantifican para reducir la información que es irrelevante para la percepción visual humana.

En la última etapa, la redundancia estadística se elimina en gran medida mediante un [[codificador de entropía|codificador de entropía]] que suele aplicar alguna forma de codificación aritmética.

En una etapa adicional de filtrado en bucle se pueden aplicar varios filtros a la señal de imagen reconstruida. Al computar estos filtros también dentro del bucle de codificación pueden ayudar a la compresión porque pueden aplicarse al material de referencia antes de que se utilice en el proceso de predicción y pueden guiarse utilizando la señal original. El ejemplo más popular son los [[filtros de desbloqueo]] que eliminan los artefactos de bloqueo de las discontinuidades de cuantificación en los límites de los bloques de transformación.

==== Historia ====
En 1967, A.H. Robinson y C. Cherry propusieron un esquema de compresión de ancho de banda de [[codificación de longitud de carrera]] para la transmisión de señales de televisión analógicas.<ref name="robinson">{{cite journal |author1-last=Robinson |author1-first=A. H. |author2-last=Cherry |author2-first=C. |title=Resultados de un prototipo de esquema de compresión de ancho de banda de televisión |journal=[[Proceedings of the IEEE]] |editorial=[[IEEE]] |volumen=55 |número=3 |fecha=1967 |páginas=356-364 |doi=10.1109/PROC.1967 .5493}}</ref> La [[transformada de coseno discreto]] (DCT), que es fundamental para la compresión de vídeo moderna,<ref name="Ghanbari"/> fue introducida por [[N. Ahmed|Nasir Ahmed]], T. Natarajan y [[K. R. Rao]] en 1974.<ref name="DCT"/><ref name="patentes"/>

[[H.261 ]], que debutó en 1988, introdujo comercialmente la arquitectura básica prevalente de la tecnología de compresión de vídeo.<ref name="history">{{Cite web|url=http://www.real. com/resources/digital-video-file-formats/|title=Infografía sobre la historia de los formatos de archivo de vídeo - RealPlayer|date=22 de abril de 2012}}</ref> Fue el primer [[formato de codificación de vídeo]] basado en la compresión DCT.<ref name="Ghanbari">{{cite book |last1=Ghanbari |first1=Mohammed |title=Standard Codecs: De la compresión de imágenes a la codificación de vídeo avanzada |fecha=2003 |editorial=[[Institución de Ingeniería y Tecnología]] |isbn=9780852967102 |pages=1–2 |url=https://books.google.com/books?id=7XuU8T3ooOAC&pg=PA1}}</ref> H.261 fue desarrollado por varias empresas, entre ellas [[Hitachi]], [[PictureTel]], [[Nippon Telegraph and Telephone|NTT]], [[BT plc|BT]] y [[Toshiba]].<ref>{{cite web |title=Declaración de patente registrada como H261-07 |url=https://www.itu.int/net4/ipr/details_ps.aspx?sector=ITU-T&id=H261-07 |sitio web=ITU |access-date=11 de julio de 2019}}</ref>

Los [[estándares de codificación de vídeo]] más populares utilizados para los códecs han sido los estándares [[MPEG]]. [[MPEG-1]] fue desarrollado por el [[Motion Picture Experts Group]] (MPEG) en 1991, y fue diseñado para comprimir vídeo de calidad [[VHS]]. Fue sucedido en 1994 por [[MPEG-2]]/[[H.262/MPEG-2 Parte 2|H.262]],<ref name="history"/> que fue desarrollado por varias empresas, principalmente [[Sony]], [[Technicolor SA|Thomson]] y [[Mitsubishi Electric]].<ref name="mp2-patents">{{cite web |title=Lista de patentes de MPEG-2 |url=https://www.mpegla.com/wp-content/uploads/m2-att1.pdf |website=[[MPEG LA]] |access-date=7 de julio de 2019}}</ref> MPEG-2 se convirtió en el formato de vídeo estándar para [[DVD]] y [[televisión digital SD]].<ref name="history"/> En 1999, le siguió [[MPEG-4 Visual|MPEG-4]]/[[H.263 ]].<ref name="history"/> También fue desarrollado por varias empresas, principalmente Mitsubishi Electric, [[Hitachi]] y [[Panasonic]].<ref name="mp4-patents">{{cite web |title=MPEG-4 Visual - Lista de patentes |url=https://www.mpegla.com/wp-content/uploads/m4v-att1.pdf |website=[[MPEG LA]] |access-date=6 de julio de 2019}}</ref>

[[H.264/MPEG-4 AVC]] fue desarrollado en 2003 por varias organizaciones, principalmente Panasonic, [[Godo kaisha|Godo Kaisha IP Bridge]] y [[LG Electronics]].<ref name="avc-patents">{{cite web |title=AVC/H.264 {{ndash}} Lista de patentes |url=https://www.mpegla.com/wp-content/uploads/avc-att1.pdf |website=MPEG LA |access-date=6 de julio de 2019}}</ref> AVC introdujo comercialmente los modernos algoritmos de [[codificación aritmética binaria adaptable al contexto]] (CABAC) y [[codificación de longitud variable adaptable al contexto]] (CAVLC). AVC es el principal estándar de codificación de vídeo para los [[discos Blu-ray]], y es ampliamente utilizado por los sitios web para compartir vídeos y los servicios de transmisión por Internet como [[YouTube]], [[Netflix]], [[Vimeo]] y [[iTunes Store]], el software web como [[Adobe Flash Player]] y [[Microsoft Silverlight]], y varias emisiones de [[HDTV]] por televisión terrestre y por satélite.

===Genética===
[Los algoritmos de compresión genómica son la última generación de algoritmos sin pérdidas que comprimen datos (normalmente secuencias de nucleótidos) utilizando tanto algoritmos de compresión convencionales como algoritmos genéticos adaptados al tipo de datos específico. En 2012, un equipo de científicos de la Universidad Johns Hopkins publicó un algoritmo de compresión genética que no utiliza un genoma de referencia para la compresión. HAPZIPPER se adaptó a los datos del [[Proyecto Internacional HapMap|HapMap]] y logra una compresión de más de 20 veces (95% de reducción del tamaño del archivo), proporcionando una compresión de 2 a 4 veces mejor y es menos intensiva desde el punto de vista computacional que las principales utilidades de compresión de uso general. Para ello, Chanda, Elhaik y Bader introdujeron la codificación basada en MAF (MAFE), que reduce la heterogeneidad del conjunto de datos clasificando los SNP por su frecuencia alélica menor, homogeneizando así el conjunto de datos.<ref name="HapZipper"/> Otros algoritmos desarrollados en 2009 y 2013 (DNAZip y GenomeZip) tienen ratios de compresión de hasta 1200 veces, lo que permite almacenar 6.000 millones de pares de bases de genomas humanos diploides en 2. 5 megabytes (en relación con un genoma de referencia o promediado entre muchos genomas).<ref name="genome email"/><ref name="genome contracts"/> Para una referencia en compresores de datos genéticos/genómicos, véase <ref name="Morteza"/>.


==Referencias==
==Referencias==

Revisión del 15:50 21 nov 2022

En ciencias de la computación, la compresión de datos es la reducción del volumen de datos tratables para representar una determinada información empleando una menor cantidad de espacio[1]​. Al acto de compresión de datos se denomina «compresión», y al contrario «descompresión».

El espacio que ocupa una información codificada (datos, señal digital, etc.) sin compresión es el producto entre la frecuencia de muestreo y la resolución. Por tanto, cuantos más bits se empleen mayor será el tamaño del archivo. No obstante, la resolución viene impuesta por el sistema digital con que se trabaja y no se puede alterar el número de bits a voluntad; por ello, se utiliza la compresión, para transmitir la misma cantidad de información que ocuparía una gran resolución en un número inferior de bits.

La compresión es un caso particular de la codificación, cuya característica principal es que el código resultante tiene menor tamaño que el original.

La compresión de datos se basa fundamentalmente en buscar repeticiones en series de datos para después almacenar solo el dato junto al número de veces que se repite. Así, por ejemplo, si en un fichero aparece una secuencia como "AAAAAA", ocupando 6 bytes se podría almacenar simplemente "6A" que ocupa solo 2 bytes, en algoritmo RLE.

En realidad, el proceso es mucho más complejo, ya que raramente se consigue encontrar patrones de repetición tan exactos (salvo en algunas imágenes). Se utilizan algoritmos de compresión:

  • Por un lado, algunos buscan series largas que luego codifican en formas más breves.
  • Por otro lado, algunos algoritmos, como el algoritmo de Huffman, examinan los caracteres más repetidos para luego codificar de forma más corta los que más se repiten.
  • Otros, como el LZW, construyen un diccionario con los patrones encontrados, a los cuales se hace referencia de manera posterior.
  • La codificación de bytes pares es otro sencillo algoritmo de compresión muy fácil de entender.

A la hora de hablar de compresión hay que tener presentes dos conceptos:

  1. Redundancia: Datos que son repetitivos o previsibles.
  2. Entropía: La información nueva o esencial que se define como la diferencia entre la cantidad total de datos de un mensaje y su redundancia.

La información que transmiten los datos puede ser de tres tipos:

  • Redundante: información repetitiva o predecible.
  • Irrelevante: información que no podemos apreciar y cuya eliminación por tanto no afecta al contenido del mensaje. Por ejemplo, si las frecuencias que es capaz de captar el oído humano están entre 16/20 Hz y 16 000/20 000 Hz, serían irrelevantes aquellas frecuencias que estuvieran por debajo o por encima de estos valores.
  • Básica: la relevante. La que no es ni redundante ni irrelevante. La que debe ser transmitida para que se pueda reconstruir la señal.

Teniendo en cuenta estos tres tipos de información, se establecen tres tipologías de compresión de la información:

  • Sin pérdidas reales: es decir, transmitiendo toda la entropía del mensaje (toda la información básica e irrelevante, pero eliminando la redundante).
  • Subjetivamente sin pérdidas: es decir, además de eliminar la información redundante se elimina también la irrelevante.
  • Subjetivamente con pérdidas: se elimina cierta cantidad de información básica, por lo que el mensaje se reconstruirá con errores perceptibles pero tolerables (por ejemplo: la videoconferencia).

Diferencias entre compresión con pérdida y sin ella

El objetivo de la compresión es siempre reducir el tamaño de la información, intentando que esta reducción de tamaño no afecte al contenido. No obstante, la reducción de datos puede afectar o no a la calidad de la información:

  • Compresión sin pérdida: los datos antes y después de comprimirlos son exactos en la compresión sin pérdida. En el caso de la compresión sin pérdida una mayor compresión solo implica más tiempo de proceso. La tasa de bits siempre es variable en la compresión sin pérdida. Se utiliza principalmente en la compresión de texto.
  • Un algoritmo de compresión con pérdida puede eliminar datos para disminuir aún más el tamaño, con lo que reduce la calidad. En la compresión con pérdida, la tasa de bits puede ser constante o variable. Una vez realizada la compresión, no se puede obtener la señal original, aunque sí una aproximación cuya semejanza con la original dependerá del tipo de compresión. Este tipo de compresión se da principalmente en imágenes, videos y sonidos. Además de estas funciones la compresión permite que los algoritmos usados para reducir las cadenas del código desechen información redundante de la imagen. Uno de los formatos que permite compensar esta perdida es el JPG, que emplea técnicas que suavizan los bordes y áreas que tienen un color similar permitiendo que la falta de información sea invisible a simple vista. Este método permite un alto grado de compresión con pérdidas en la imagen que, muchas veces, solo es visible mediante el zoom.

Usos

Imagen

La codificación de entropía se originó en la década de 1940 con la introducción de la codificación Shannon-Fano,[2]​ la base de la codificación Huffman que se desarrolló en 1950.[3]​ La codificación por transformada se remonta a finales de la década de 1960, con la introducción de la transformada rápida de Fourier (FFT) en 1968 y la transformada Hadamard en 1969.[4]

Una importante técnica de compresión de imágenes es la transformada discreta del coseno (DCT), una técnica desarrollada a principios de la década de 1970.[5]​ La DCT es la base del JPEG, un formato de compresión con pérdidas que fue introducido por el Joint Photographic Experts Group (JPEG) en 1992.[6]​ JPEG reduce en gran medida la cantidad de datos necesarios para representar una imagen a costa de una reducción relativamente pequeña de la calidad de la misma y se ha convertido en el formato de archivo de imagen más utilizado.[7][8]​ Su algoritmo de compresión altamente eficiente basado en la DCT fue en gran parte responsable de la amplia proliferación de imagen digitals y foto digitals.[9]

Lempel-Ziv-Welch (LZW) es un algoritmo de compresión sin pérdidas desarrollado en 1984. Se utiliza en el formato GIF, introducido en 1987.[10]DEFLATE, un algoritmo de compresión sin pérdidas especificado en 1996, se utiliza en el formato Portable Network Graphics (PNG).[11]

La compresión wavelet, el uso de wavelets en la compresión de imágenes, comenzó tras el desarrollo de la codificación DCT.[12]​ El estándar JPEG 2000 se introdujo en el año 2000.[13]​ A diferencia del algoritmo DCT utilizado por el formato JPEG original, JPEG 2000 utiliza en su lugar algoritmos de transformada de ondícula discreta (DWT).[14][15][16]​ La tecnología JPEG 2000, que incluye la extensión Motion JPEG 2000, fue seleccionada como el estándar de codificación de vídeo para el cine digital en 2004.[17]

Audio

La compresión de datos de audio, que no debe confundirse con la compresión de rango dinámico, tiene el potencial de reducir el ancho de banda y los requisitos de almacenamiento de los datos de audio. [Los algoritmos de compresión de audio se implementan en software como códecs de audio. Tanto en la compresión con pérdidas como en la compresión sin pérdidas, se reduce la redundancia de la información, utilizando métodos como la codificación, la cuantización, la transformada discreta del coseno y la predicción lineal para reducir la cantidad de información utilizada para representar los datos sin comprimir.

Los algoritmos de compresión de audio con pérdidas proporcionan una mayor compresión y se utilizan en numerosas aplicaciones de audio, como Vorbis y MP3. Estos algoritmos se basan casi todos en la psicoacústica para eliminar o reducir la fidelidad de los sonidos menos audibles, reduciendo así el espacio necesario para almacenarlos o transmitirlos. [18][19]

La compensación aceptable entre la pérdida de calidad de audio y el tamaño de transmisión o almacenamiento depende de la aplicación. Por ejemplo, un disco compacto (CD) de 640 MB contiene aproximadamente una hora de música de alta fidelidad sin comprimir, menos de 2 horas de música comprimida sin pérdidas o 7 horas de música comprimida en el formato MP3 a una tasa de bits media. Una grabadora de sonido digital puede almacenar normalmente unas 200 horas de habla claramente inteligible en 640 MB.[20]

La compresión de audio sin pérdidas produce una representación de los datos digitales que puede descodificarse en un duplicado digital exacto del original. Los ratios de compresión se sitúan en torno al 50-60% del tamaño original,[21]​ que es similar a los de la compresión genérica de datos sin pérdidas. Los códecs sin pérdidas utilizan el ajuste de curvas o la predicción lineal como base para estimar la señal. Los parámetros que describen la estimación y la diferencia entre la estimación y la señal real se codifican por separado.[22]

Existen varios formatos de compresión de audio sin pérdidas. Véase lista de códecs sin pérdidas para obtener una lista. Algunos formatos están asociados a un sistema distinto, como Direct Stream Transfer, utilizado en Super Audio CD y Meridian Lossless Packing, utilizado en DVD-Audio, Dolby TrueHD, Blu-ray y HD DVD.

Algunos formatos de archivo de audio presentan una combinación de un formato con pérdidas y una corrección sin pérdidas; esto permite eliminar la corrección para obtener fácilmente un archivo con pérdidas. Estos formatos incluyen MPEG-4 SLS (Scalable to Lossless), WavPack y OptimFROG DualStream.

Cuando se van a procesar archivos de audio, ya sea por compresión posterior o para edición, es deseable trabajar a partir de un original inalterado (sin comprimir o comprimido sin pérdidas). El procesamiento de un archivo comprimido sin pérdidas para algún fin suele producir un resultado final inferior a la creación del mismo archivo comprimido a partir de un original sin comprimir. Además de para la edición o la mezcla de sonido, la compresión de audio sin pérdidas se utiliza a menudo para el almacenamiento de archivos, o como copias maestras.

Compresión de audio con pérdidas

[File:AudiodatenkompressionManowarThePowerOfThySword.jpg|thumb|Comparación de espectrogramas de audio en un formato sin comprimir y en varios formatos con pérdidas. Los espectrogramas con pérdidas muestran bandlimiting de las frecuencias más altas, una técnica común asociada a la compresión de audio con pérdidas]].

La compresión de audio con pérdidas se utiliza en una amplia gama de aplicaciones. Además de las aplicaciones independientes de reproducción de archivos en reproductores MP3 u ordenadores, los flujos de audio comprimidos digitalmente se utilizan en la mayoría de los DVD de vídeo, la televisión digital, los medios de transmisión en Internet, la radio por satélite y por cable, y cada vez más en las emisiones de radio terrestre. La compresión con pérdidas suele lograr una compresión mucho mayor que la compresión sin pérdidas, al descartar los datos menos críticos basándose en optimizaciones psicoacústicas.[23]

La psicoacústica reconoce que no todos los datos de un flujo de audio pueden ser percibidos por el sistema auditivo humano. La mayor parte de la compresión con pérdidas reduce la redundancia identificando primero los sonidos perceptualmente irrelevantes, es decir, los sonidos que son muy difíciles de oír. Ejemplos típicos son las frecuencias altas o los sonidos que se producen al mismo tiempo que los sonidos más fuertes. Esos sonidos irrelevantes se codifican con menor precisión o no se codifican en absoluto.

Debido a la naturaleza de los algoritmos con pérdidas, la calidad del audio sufre una pérdida de generación digital cuando se descomprime y recomprime un archivo. Esto hace que la compresión con pérdidas sea inadecuada para almacenar los resultados intermedios en aplicaciones profesionales de ingeniería de audio, como la edición de sonido y la grabación multipista. Sin embargo, los formatos con pérdidas, como el MP3, son muy populares entre los usuarios finales, ya que el tamaño del archivo se reduce al 5-20% del tamaño original y un megabyte puede almacenar aproximadamente un minuto de música con la calidad adecuada.

Métodos de codificación

Para determinar qué información de una señal de audio es irrelevante desde el punto de vista perceptivo, la mayoría de los algoritmos de compresión con pérdidas utilizan transformaciones como la transformada discreta del coseno (MDCT) para convertir las formas de onda muestreadas en el dominio del tiempo en un dominio de transformación, normalmente el dominio de la frecuencia. Una vez transformadas, las frecuencias de los componentes pueden priorizarse según su audibilidad. La audibilidad de los componentes espectrales se evalúa utilizando el umbral absoluto de audición y los principios de enmascaramiento simultáneo-el fenómeno en el que una señal es enmascarada por otra señal separada por la frecuencia-y, en algunos casos, enmascaramiento temporal-en el que una señal es enmascarada por otra señal separada por el tiempo. También se pueden utilizar los contornos de igual sonoridad para ponderar la importancia perceptiva de los componentes. Los modelos de la combinación oído-cerebro humano que incorporan estos efectos suelen denominarse modelo psicoacústicos.[24]

Otros tipos de compresores con pérdidas, como la codificación predictiva lineal utilizada con el habla, son codificadores basados en la fuente. La LPC utiliza un modelo del tracto vocal humano para analizar los sonidos del habla e inferir los parámetros utilizados por el modelo para producirlos momento a momento. Estos parámetros cambiantes se transmiten o almacenan y se utilizan para impulsar otro modelo en el descodificador que reproduce el sonido.

Los formatos con pérdidas se utilizan a menudo para la distribución de audio en streaming o la comunicación interactiva (como en las redes de telefonía móvil). En estas aplicaciones, los datos deben descomprimirse a medida que fluyen, en lugar de hacerlo después de que se haya transmitido todo el flujo de datos. No todos los códecs de audio pueden utilizarse para aplicaciones de streaming.[23]

La Latencia es introducida por los métodos utilizados para codificar y decodificar los datos. Algunos códecs analizan un segmento más largo, llamado trama, de los datos para optimizar la eficiencia, y luego lo codifican de manera que se requiera un segmento más grande de datos a la vez para decodificar. La latencia inherente al algoritmo de codificación puede ser crítica; por ejemplo, cuando hay una transmisión bidireccional de datos, como en una conversación telefónica, los retrasos significativos pueden degradar seriamente la calidad percibida.

A diferencia de la velocidad de compresión, que es proporcional al número de operaciones que requiere el algoritmo, aquí la latencia se refiere al número de muestras que hay que analizar antes de procesar un bloque de audio. En el caso mínimo, la latencia es de cero muestras (por ejemplo, si el codificador/decodificador simplemente reduce el número de bits utilizados para cuantificar la señal). Los algoritmos del dominio del tiempo, como el LPC, también suelen tener latencias bajas, de ahí su popularidad en la codificación del habla para la telefonía. Sin embargo, en algoritmos como el MP3, hay que analizar un gran número de muestras para implementar un modelo psicoacústico en el dominio de la frecuencia, y la latencia es del orden de 23 ms.

Codificación del habla

La codificación del habla es una categoría importante de la compresión de datos de audio. Los modelos perceptivos utilizados para estimar qué aspectos del habla puede escuchar el oído humano suelen ser algo diferentes de los utilizados para la música. El rango de frecuencias necesario para transmitir los sonidos de una voz humana es normalmente mucho más estrecho que el necesario para la música, y el sonido es normalmente menos complejo. Por ello, la voz puede codificarse con alta calidad utilizando una tasa de bits relativamente baja.

Esto se consigue, en general, mediante una combinación de dos enfoques:

  • Codificar sólo los sonidos que podría emitir una sola voz humana.
  • Desechar la mayor parte de los datos de la señal, conservando sólo lo suficiente para reconstruir una voz "inteligible" en lugar de toda la gama de frecuencias del oído humano.

Los primeros algoritmos utilizados en la codificación del habla (y en la compresión de datos de audio en general) fueron el algoritmo A-law y el algoritmo μ-law.

Historia

Solidyne 922: La primera tarjeta de sonido comercial de compresión de bits de audio para PC, 1990

Las primeras investigaciones sobre audio se realizaron en los Laboratorios Bell. Allí, en 1950, C. Chapin Cutler presentó la patente de la modulación diferencial por código de impulsos (DPCM).[25]​ En 1973, P. Cummiskey, Nikil S. Jayant y James L. Flanagan introdujeron la DPCM adaptativa (ADPCM).[26][27]

La codificación perceptiva se utilizó por primera vez para la compresión de la codificación del habla, con la codificación predictiva lineal (LPC).[28]​ Los conceptos iniciales de LPC se remontan a los trabajos de Fumitada Itakura (Universidad de Nagoya) y Shuzo Saito (Nippon Telegraph and Telephone) en 1966.[29]​ Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrollaron una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptiva que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de los años ochenta con el algoritmo de predicción lineal excitada por código (CELP), que logró una relación de compresión significativa para su época. [28]​ La codificación perceptual es utilizada por los formatos modernos de compresión de audio como MP3[28]​ y AAC.

La Transformación de coseno discreto (DCT), desarrollada por Nasir Ahmed, T. Natarajan y K. R. Rao en 1974,[30]​ proporcionó la base para la transformada discreta del coseno modificada (MDCT) utilizada por los formatos modernos de compresión de audio como el MP3,[31]Dolby Digital,[32]​<{cite journal |last1=Britanak |first1=V. |title=Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3 |journal=IEEE Transactions on Audio, Speech, and Language Processing |date=2011 |volume=19 |issue=5 |pages=1231-1241 |doi=10.1109/TASL.2010 .2087755|s2cid=897622 }}</ref> y AAC.[33]​ El MDCT fue propuesto por J. P. Princen, A. W. Johnson y A. B. Bradley en 1987,[34]​ tras un trabajo anterior de Princen y Bradley en 1986.[35]

El primer sistema comercial de automatización de emisiones de audio del mundo fue desarrollado por Oscar Bonello, un profesor de ingeniería de la Universidad de Buenos Aires.[36]​{fv|reason=Esta fuente autopublicada no es lo suficientemente buena como para verificar esta significativa primicia.|date=Octubre 2021}} En 1983, utilizando el principio psicoacústico del enmascaramiento de las bandas críticas publicado por primera vez en 1967,[37]​ comenzó a desarrollar una aplicación práctica basada en el recién desarrollado ordenador IBM PC, y el sistema de automatización de la radiodifusión fue lanzado en 1987 bajo el nombre de Audicom. Veinte años después, casi todas las emisoras de radio del mundo utilizaban una tecnología similar fabricada por varias empresas.

En febrero de 1988 se publicó un compendio bibliográfico sobre una gran variedad de sistemas de codificación de audio en el Journal on Selected Areas in Communications (JSAC) del IEEE. Aunque había algunos artículos de antes, esta colección documentaba toda una variedad de codificadores de audio acabados y en funcionamiento, casi todos ellos utilizando técnicas perceptivas y algún tipo de análisis de frecuencia y codificación sin ruido de fondo.[38]

Vídeo

El Vídeo sin comprimir requiere una tasa de datos muy alta. Aunque los códecs Compresión de vídeo sin pérdidas funcionan con un factor de compresión de 5 a 12, un vídeo típico de compresión con pérdidas H.264 tiene un factor de compresión de entre 20 y 200.[39]

Las dos técnicas clave de compresión de vídeo utilizadas en los estándares de codificación de vídeo son la transformada de coseno discreto (DCT) y la compensación de movimiento (MC). La mayoría de los estándares de codificación de vídeo, como los formatos H.26x y MPEG, suelen utilizar la codificación de vídeo DCT con compensación de movimiento (compensación de movimiento en bloque).[40][41]

La mayoría de los códecs de vídeo se utilizan junto con las técnicas de compresión de audio para almacenar los flujos de datos separados pero complementarios como un paquete combinado utilizando los llamados formato contenedors.[42]

Teoría de la codificación

Los datos de vídeo pueden representarse como una serie de fotogramas de imágenes fijas. Estos datos suelen contener abundantes cantidades de redundancia espacial y temporal. Los algoritmos de compresión de vídeo intentan reducir la redundancia y almacenar la información de forma más compacta.

La mayoría de los formatos de compresión de vídeo y códecs explotan la redundancia espacial y temporal (por ejemplo, mediante la codificación de diferencias con compensación de movimiento). Las similitudes pueden codificarse almacenando sólo las diferencias entre, por ejemplo, fotogramas temporalmente adyacentes (codificación intercuadro) o píxeles espacialmente adyacentes (codificación intracuadro). La compresión Inter-frame (una codificación delta temporal) (re)utiliza los datos de uno o más fotogramas anteriores o posteriores de una secuencia para describir el fotograma actual. La codificación intracuadro, por el contrario, utiliza sólo datos del cuadro actual, siendo en realidad una compresión de imagen.[24]

Los formatos de codificación de vídeo intra-frame utilizados en las videocámaras y en la edición de vídeo emplean una compresión más simple que utiliza sólo la predicción intra-frame. Esto simplifica el software de edición de vídeo, ya que evita que un fotograma comprimido se refiera a datos que el editor ha eliminado.

Normalmente, la compresión de vídeo emplea además técnicas de compresión con pérdidas como la cuantización que reducen aspectos de los datos de origen que son (más o menos) irrelevantes para la percepción visual humana explotando características perceptivas de la visión humana. Por ejemplo, las pequeñas diferencias de color son más difíciles de percibir que los cambios de brillo. Los algoritmos de compresión pueden promediar un color a través de estas áreas similares de una manera similar a los utilizados en la compresión de imágenes JPEG.[43]​ Como en toda compresión con pérdidas, hay un compromiso entre la calidad de vídeo y la tasa de bits, el coste de procesar la compresión y la descompresión, y los requisitos del sistema. Los vídeos muy comprimidos pueden presentar artefactos de compresión visibles o molestos.

Otros métodos distintos de los formatos de transformación basados en la DCT, como la compresión fractal, la búsqueda de coincidencias y el uso de una transformada wavelet discreta (DWT), han sido objeto de algunas investigaciones, pero no suelen utilizarse en productos prácticos. La compresión wavelet se utiliza en codificadores de imágenes fijas y de vídeo sin compensación de movimiento. El interés por la compresión fractal parece estar disminuyendo, debido a los recientes análisis teóricos que muestran una falta de eficacia comparativa de tales métodos.[24]

Codificación entre fotogramas

En la codificación entre fotogramas, se comparan los fotogramas individuales de una secuencia de vídeo de un fotograma a otro, y el códec de compresión de vídeo registra el diferencias respecto al fotograma de referencia. Si el fotograma contiene áreas en las que no se ha movido nada, el sistema puede simplemente emitir un breve comando que copie esa parte del fotograma anterior en el siguiente. Si hay secciones del fotograma que se mueven de forma sencilla, el compresor puede emitir un comando (ligeramente más largo) que indique al descompresor que desplace, rote, aclare u oscurezca la copia. Este comando más largo sigue siendo mucho más corto que los datos generados por la compresión intracuadro. Normalmente, el codificador también transmite una señal de residuo que describe las restantes diferencias más sutiles con respecto a las imágenes de referencia. Utilizando la codificación de entropía, estas señales de residuo tienen una representación más compacta que la señal completa. En las zonas de vídeo con más movimiento, la compresión debe codificar más datos para mantener el ritmo del mayor número de píxeles que cambian. Normalmente, durante las explosiones, las llamas, las bandadas de animales y en algunas tomas panorámicas, el detalle de alta frecuencia provoca una disminución de la calidad o un aumento de la tasa de bits variable.

Formatos de transformación híbridos basados en bloques

Etapas de procesamiento de un codificador de vídeo típico

En la actualidad, casi todos los métodos de compresión de vídeo más utilizados (por ejemplo, los que figuran en las normas aprobadas por la UIT-T o la ISO) comparten la misma arquitectura básica que se remonta a la norma H.261, estandarizada en 1988 por la UIT-T. Se basan principalmente en la DCT, aplicada a bloques rectangulares de píxeles vecinos, y en la predicción temporal mediante vectores de movimiento, así como, actualmente, en una etapa de filtrado en bucle.

En la etapa de predicción, se aplican varias técnicas de deduplicación y de codificación de diferencias que ayudan a decorrelacionar los datos y a describir los nuevos datos basándose en los ya transmitidos.

A continuación, los bloques rectangulares de datos de píxeles restantes se transforman en el dominio de la frecuencia. En la principal etapa de procesamiento con pérdidas, los datos del dominio de la frecuencia se cuantifican para reducir la información que es irrelevante para la percepción visual humana.

En la última etapa, la redundancia estadística se elimina en gran medida mediante un codificador de entropía que suele aplicar alguna forma de codificación aritmética.

En una etapa adicional de filtrado en bucle se pueden aplicar varios filtros a la señal de imagen reconstruida. Al computar estos filtros también dentro del bucle de codificación pueden ayudar a la compresión porque pueden aplicarse al material de referencia antes de que se utilice en el proceso de predicción y pueden guiarse utilizando la señal original. El ejemplo más popular son los filtros de desbloqueo que eliminan los artefactos de bloqueo de las discontinuidades de cuantificación en los límites de los bloques de transformación.

Historia

En 1967, A.H. Robinson y C. Cherry propusieron un esquema de compresión de ancho de banda de codificación de longitud de carrera para la transmisión de señales de televisión analógicas.[44]​ La transformada de coseno discreto (DCT), que es fundamental para la compresión de vídeo moderna,[45]​ fue introducida por Nasir Ahmed, T. Natarajan y K. R. Rao en 1974.[30][46]

H.261 , que debutó en 1988, introdujo comercialmente la arquitectura básica prevalente de la tecnología de compresión de vídeo.[47]​ Fue el primer formato de codificación de vídeo basado en la compresión DCT.[45]​ H.261 fue desarrollado por varias empresas, entre ellas Hitachi, PictureTel, NTT, BT y Toshiba.[48]

Los estándares de codificación de vídeo más populares utilizados para los códecs han sido los estándares MPEG. MPEG-1 fue desarrollado por el Motion Picture Experts Group (MPEG) en 1991, y fue diseñado para comprimir vídeo de calidad VHS. Fue sucedido en 1994 por MPEG-2/H.262,[47]​ que fue desarrollado por varias empresas, principalmente Sony, Thomson y Mitsubishi Electric.[49]​ MPEG-2 se convirtió en el formato de vídeo estándar para DVD y televisión digital SD.[47]​ En 1999, le siguió MPEG-4/H.263 .[47]​ También fue desarrollado por varias empresas, principalmente Mitsubishi Electric, Hitachi y Panasonic.[50]

H.264/MPEG-4 AVC fue desarrollado en 2003 por varias organizaciones, principalmente Panasonic, Godo Kaisha IP Bridge y LG Electronics.[51]​ AVC introdujo comercialmente los modernos algoritmos de codificación aritmética binaria adaptable al contexto (CABAC) y codificación de longitud variable adaptable al contexto (CAVLC). AVC es el principal estándar de codificación de vídeo para los discos Blu-ray, y es ampliamente utilizado por los sitios web para compartir vídeos y los servicios de transmisión por Internet como YouTube, Netflix, Vimeo y iTunes Store, el software web como Adobe Flash Player y Microsoft Silverlight, y varias emisiones de HDTV por televisión terrestre y por satélite.

Genética

[Los algoritmos de compresión genómica son la última generación de algoritmos sin pérdidas que comprimen datos (normalmente secuencias de nucleótidos) utilizando tanto algoritmos de compresión convencionales como algoritmos genéticos adaptados al tipo de datos específico. En 2012, un equipo de científicos de la Universidad Johns Hopkins publicó un algoritmo de compresión genética que no utiliza un genoma de referencia para la compresión. HAPZIPPER se adaptó a los datos del HapMap y logra una compresión de más de 20 veces (95% de reducción del tamaño del archivo), proporcionando una compresión de 2 a 4 veces mejor y es menos intensiva desde el punto de vista computacional que las principales utilidades de compresión de uso general. Para ello, Chanda, Elhaik y Bader introdujeron la codificación basada en MAF (MAFE), que reduce la heterogeneidad del conjunto de datos clasificando los SNP por su frecuencia alélica menor, homogeneizando así el conjunto de datos.[52]​ Otros algoritmos desarrollados en 2009 y 2013 (DNAZip y GenomeZip) tienen ratios de compresión de hasta 1200 veces, lo que permite almacenar 6.000 millones de pares de bases de genomas humanos diploides en 2. 5 megabytes (en relación con un genoma de referencia o promediado entre muchos genomas).[53][54]​ Para una referencia en compresores de datos genéticos/genómicos, véase [55]​.

Referencias

  1. Wade, Graham (1994). Signal coding and processing (2 edición). Cambridge University Press. p. 34. ISBN 978-0-521-42336-6. Consultado el 22 de diciembre de 2011. «The broad objective of source coding is to exploit or remove 'inefficient' redundancy in the PCM source and thereby achieve a reduction in the overall source rate R.» 
  2. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Shannon
  3. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Huffman
  4. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Hadamard
  5. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Ahmed
  6. «T.81 - COMPRESIÓN DIGITAL Y CODIFICACIÓN DE IMÁGENES FIJAS DE TONO CONTINUO - REQUISITOS Y DIRECTRICES». CCITT. Septiembre 1992. Consultado el 12 de julio de 2019. 
  7. «El formato de imagen JPEG explicado». BT.com. BT Group. 31 de mayo de 2018. Archivado desde el original el 5 de agosto de 2019. Consultado el 5 de agosto de 2019.  Parámetro desconocido |url-status= ignorado (ayuda)
  8. {cite news |last1=Baraniuk |first1=Chris |title=Las protecciones de copia podrían llegar a los JPEG |url=https://www.bbc.co.uk/news/technology-34538705 |access-date=13 de septiembre de 2019 |work=BBC News |agencia=BBC |fecha=15 de octubre de 2015}}
  9. «¿Qué es un JPEG? El objeto invisible que ves todos los días». The Atlantic. 24 de septiembre de 2013. Consultado el 13 de septiembre de 2019. 
  10. Cummiskey, P.; Jayant, N. S. (1973). «Cuantización adaptativa en la codificación PCM diferencial del habla». Bell System Technical Journal 52. pp. 1105-1118. doi:10.1002/j.1538-7305 .1973.tb02007.x |doi= incorrecto (ayuda). Consultado el 26 May 2015}
  11. DEFLATE Compressed Data Format Specification version 1.3, p. 1. sec. Abstract, doi:10.17487/RFC1951, RFC 1951 .
  12. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Hoffman
  13. Sullivan, Gary; Marcellin, Michael (8-12 de diciembre de 2003). «Características generales y consideraciones de diseño para la codificación de vídeo de subbanda temporal». UIT-T (Springer Science & Business Media). ISBN 9781461507994.  Parámetro desconocido |fecha de acceso= ignorado (se sugiere |fechaacceso=) (ayuda); Parámetro desconocido |publicador= ignorado (se sugiere |editorial=) (ayuda); |date= y |fecha= redundantes (ayuda)
  14. Bovik, Alan C. (2009). La guía esencial del procesamiento de vídeo. Academic Press. p. 355. ISBN 9780080922508. 
  15. Plantilla:Cite el libro
  16. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas mahdi53
  17. Cunningham, Stuart; McGregor, Iain (2019). «Evaluación subjetiva de la música comprimida con el códec ACER en comparación con AAC, MP3 y PCM sin comprimir». International Journal of Digital Multimedia Broadcasting (en inglés) 2019: 1-16. doi:10. 1155/2019/8265301 |doi= incorrecto (ayuda).  Parámetro desconocido |doi-access= ignorado (ayuda)
  18. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Olympus WS-120
  19. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas FLAC comparison
  20. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas FLAC overview
  21. a b Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Jaiswal
  22. a b c Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas faxin47
  23. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas DPCM
  24. {cite journal.  Parámetro desconocido |primero3= ignorado (ayuda); Parámetro desconocido |emisión= ignorado (ayuda); Parámetro desconocido |último3= ignorado (ayuda)
  25. {cite journal |last1=Cummiskey |first1=P. |last2=Jayant |first2=Nikil S. |last3=Flanagan |first3=J. L. |title=Cuantización adaptativa en la codificación PCM diferencial del habla |journal=The Bell System Technical Journal |date=1973 |volume=52 |issue=7 |pages=1105-1118 |doi=10.1002/j.1538-7305.1973.tb02007.x |issn=0005-8580}}
  26. a b c Schroeder, Manfred R. (2014). «Laboratorios Bell». Acústica, información y comunicación: Volumen conmemorativo en honor de Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.  Parámetro desconocido |capítulo-url= ignorado (ayuda)
  27. {cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Parte II de la Codificación Predictiva Lineal y el Protocolo de Internet |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203-303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}
  28. a b Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas DCT
  29. Guckert, John (Primavera 2012). math.utah.edu/~gustafso/s2012/2270/web-projects/Guckert-audio-compression-svd-mdct-MP3.pdf «El uso de la FFT y la MDCT en la compresión de audio MP3». Universidad de Utah.  Parámetro desconocido |fecha de acceso= ignorado (se sugiere |fechaacceso=) (ayuda)
  30. Plantilla:Cite el libro
  31. Brandenburg, Karlheinz; Johnson, A.; Bradley, A. (1987). archive.org/web/20170213191747/https://graphics.ethz.ch/teaching/mmcom12/slides/mp3_and_aac_brandenburg.pdf «Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados en la cancelación de aliasing en el dominio del tiempo». ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing 12. pp. 2161-2164. S2CID 58446992. doi:10.1109/ICASSP.1987 .1169405 |doi= incorrecto (ayuda). Archivado desde el original el 2017-02-13}
  32. {cite book.  Parámetro desconocido |url-status= ignorado (ayuda); |last1= y |last= redundantes (ayuda); |first1= y |first= redundantes (ayuda)
  33. Princen, J.; Bradley, A. (1986). «Diseño de banco de filtros de análisis/síntesis basado en la cancelación de aliasing en el dominio del tiempo». IEEE Transactions on Acoustics, Speech, and Signal Processing 34 (5): 1153-1161. doi:10.1109/TASSP.1986 .1164954 |doi= incorrecto (ayuda). 
  34. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Solidyne
  35. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Zwicker
  36. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Possibilities
  37. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas MSU2007
  38. Chen, Jie; Koc, Ut-Va; Liu, KJ Ray (2001). Diseño de sistemas de codificación de vídeo digital: Un enfoque completo de dominio comprimido. CRC Press. p. 71. ISBN 9780203904183. 
  39. Li, Jian Ping (2006). Proceedings of the International Computer Conference 2006 on Wavelet Active Media Technology and Information Processing: Chongqing, China, 29-31 de agosto de 2006. World Scientific. p. 847. ISBN 9789812709998. 
  40. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas CSIP
  41. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas TomLane
  42. Robinson, A. H.; Cherry, C. (1967). «Resultados de un prototipo de esquema de compresión de ancho de banda de televisión». Proceedings of the IEEE (IEEE) 55 (3): 356-364. doi:10.1109/PROC.1967 .5493 |doi= incorrecto (ayuda). 
  43. a b Ghanbari, Mohammed (2003). Standard Codecs: De la compresión de imágenes a la codificación de vídeo avanzada. Institución de Ingeniería y Tecnología. pp. 1-2. ISBN 9780852967102. 
  44. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas patentes
  45. a b c d com/resources/digital-video-file-formats/ «Infografía sobre la historia de los formatos de archivo de vídeo - RealPlayer». 22 de abril de 2012. 
  46. «Declaración de patente registrada como H261-07». ITU. Consultado el 11 de julio de 2019. 
  47. «Lista de patentes de MPEG-2». MPEG LA. Consultado el 7 de julio de 2019. 
  48. «MPEG-4 Visual - Lista de patentes». MPEG LA. Consultado el 6 de julio de 2019. 
  49. «AVC/H.264 [[:Plantilla:Ndash]] Lista de patentes». MPEG LA. Consultado el 6 de julio de 2019.  Wikienlace dentro del título de la URL (ayuda)
  50. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas HapZipper
  51. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas genome email
  52. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas genome contracts
  53. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Morteza

Véase también

Enlaces externos