La Nueva Era en la Medición de Calidad de Imágenes con Inteligencia Artificial

#ai #learning

Una Introducción a las Métricas de Calidad de Imagen

Cuando se trata de evaluar la calidad de las imágenes digitales, el desafío siempre ha sido encontrar una medida que refleje la complejidad de la visión humana. Históricamente, nos hemos basado en estándares como el PSNR y el SSIM para tareas de medición, que aunque han proporcionado marcos útiles, no capturan completamente la sutileza de cómo vemos y procesamos las imágenes visualmente. Surge entonces el LPIPS, un avance impulsado por la inteligencia artificial que redefine la evaluación de calidad. Esta métrica pionera, conocida por sus siglas en inglés como Learned Perceptual Image Patch Similarity, representa una revolución en nuestro enfoque, al emplear redes neuronales avanzadas para evaluar la calidad visual de manera que emula con mayor fidelidad la percepción humana. Con LPIPS, entramos en una nueva era donde las máquinas no solo ven, sino que comienzan a entender y juzgar la calidad de una imagen casi como lo haría los ojos humanos.

El Viaje de la Evaluación de Calidad: PSNR y SSIM

El PSNR y el SSIM han sido durante mucho tiempo los pilares de la evaluación de calidad de imagen. El PSNR compara el nivel de una señal (la imagen) con el nivel de ruido que afecta su claridad. El SSIM, por otro lado, mide cuán similar es una imagen a una referencia, teniendo en cuenta aspectos como la textura y el brillo. Ambas métricas ofrecen una perspectiva cuantitativa, pero no siempre reflejan fielmente lo que el ojo humano percibe.

Como se muestra en la figura 1 una serie de cinco versiones de una imagen original, la cual está en el centro superior. Cada una de las versiones procesadas ha sido sometida a un tipo diferente de distorsión o ruido y se acompaña de dos valores métricos: PSNR y SSIM. Estos indicadores se utilizan para medir la calidad de las imágenes procesadas o comprimidas en comparación con la imagen original.

- Original: Esta es la imagen sin alterar, que sirve como referencia para comparar las demás imágenes procesadas.
- Ruido Gaussiano (PSNR: 25.05, SSIM: 0.6004): A esta imagen se le ha añadido ruido gaussiano, que es una forma común de alteración que puede ser causada por una variedad de factores, como problemas en el sensor de una cámara digital. El PSNR (Peak Signal-to-Noise Ratio) es una medida que compara el nivel máximo de una señal con el nivel de ruido de fondo. Un PSNR más alto indica una calidad mejor y más cercana a la imagen original (30 dB a 40 dB). El SSIM (Structural Similarity Index Measure) es una medida de cuán similar es una imagen a una de referencia, en términos de estructura, percepción y luminosidad. Un valor de SSIM más cercano a 1 indica una mayor similitud con la imagen original.
- Desenfoque Gaussiano (PSNR: 24.61, SSIM: 0.5744): Aquí, la imagen ha sido desenfocada utilizando un filtro gaussiano, lo que reduce los detalles y la nitidez. El PSNR y SSIM disminuyen levemente en comparación con el ruido gaussiano, lo que sugiere una calidad ligeramente inferior en relación con la imagen original.
- Desenfoque de Movimiento (PSNR: 19.58, SSIM: 0.5201): Esta imagen representa un desenfoque causado por el movimiento (ya sea del objeto o de la cámara) durante la captura de la imagen. El PSNR más bajo y el SSIM indican que esta imagen tiene una calidad inferior en comparación con las anteriores, reflejando una mayor desviación de la imagen original.
- Ruido Aleatorio (PSNR: 14.96, SSIM: 0.2794): Se ha introducido ruido aleatorio a la imagen, lo cual es más destructivo que el ruido gaussiano. Esto se refleja en los valores mucho menores de PSNR y SSIM, lo que indica una calidad significativamente más baja.
- Fluctuación Térmica (PSNR: 19.39, SSIM: 0.4992): Esta distorsión simula los efectos de las fluctuaciones térmicas en la imagen. El PSNR y el SSIM son más altos que en la imagen con ruido aleatorio, pero aún significativamente menores que en la imagen original.

Figura 1: Uso de métricas PSNR y SSIM para la evaluación de 5 imágenes con distorsiones respecto a una imagen original.

Introduciendo LPIPS: Una Nueva Métrica para la Percepción Visual

LPIPS representa un cambio radical en la evaluación de la calidad de imagen. A diferencia de PSNR y SSIM, LPIPS utiliza redes neuronales para imitar más de cerca la percepción humana de la calidad visual. Esta métrica analiza las imágenes en términos de cómo las personas realmente las ven, en lugar de depender solo de cálculos matemáticos.

Los investigadores han enfocado sus esfuerzos en superar las discrepancias entre las métricas tradicionales y la percepción humana de la calidad. Con LPIPS, por fin parece que tenemos una herramienta que realmente captura la esencia de lo que nuestros ojos y cerebros perciben como 'calidad'.

En la figura 2 se describe como ha ido evolucionando las métricas para evaluar la calidad de imagen

1. PSNR: Peak Signal-to-Noise Ratio. Introducido en el año 2000, es una medida que compara el nivel máximo posible de una señal (en este caso, la imagen) con el poder del ruido que afecta la fidelidad de su representación.
2. SSIM: Structural Similarity Index Measure. Presentado en el año 2003, este índice mide la similitud estructural entre dos imágenes, considerando cambios en la textura, brillo y contraste.
3. HaarPSI: Haar wavelet-based Perceptual Similarity Index. Introducido en el año 2016, es una métrica que utiliza la transformada wavelet de Haar para evaluar la similitud perceptual entre dos imágenes.
4. MDSI: Mean Deviation Similarity Index. También introducido en 2016, el MDSI es una métrica que combina desviaciones de color y de luminancia con medidas de coherencia de contraste para determinar la similitud entre dos imágenes.

5. LPIPS: Learned Perceptual Image Patch Similarity. Presentado en 2018, el LPIPS es una métrica que emplea redes neuronales profundas para evaluar la similitud perceptual entre dos imágenes en una manera que imita más de cerca la percepción humana.

Figura 2: Evolución de las métricas para la evaluación de calidad de imagen.

LPIPS y el Futuro de la Evaluación de Calidad Visual

LPIPS no es solo una nueva métrica, sino también un símbolo de la evolución en la comprensión de la calidad visual. Su enfoque basado en la percepción humana abre nuevas posibilidades para la evaluación y mejora de imágenes y videos digitales.

Para ello se presenta la figura 3, ¿Cuál imagen se ve mejor?

Figura 3: ¿Qué imagen se ve mejor?

En la figura 4 a pesar que el PSNR y el SSIM sugieren una alta similitud con la imagen original (con un PSNR que se considera bueno y un SSIM que indica una similitud estructural relativamente alta), el valor de LPIPS indica que hay diferencias perceptuales notables.

El LPIPS mide la similitud de las imágenes de manera que se alinea más estrechamente con la percepción visual humana, capturando sutilezas que los otros dos índices pueden pasar por alto. Por ejemplo, puede detectar diferencias en la textura del pelaje, la calidez de la iluminación o la nitidez de los detalles finos que afectan la calidad percibida, incluso si estas diferencias son sutiles y no se reflejan significativamente en las métricas tradicionales.

La imagen original destaca claramente los bigotes del gato de manera más nítida. Esto evidencia que el índice LPIPS proporciona la evaluación más precisa, asignando un valor de 0 cuando no hay diferencias y 1 cuando existen notables disparidades. En contraste, los valores de PSNR y SSIM sugieren que la imagen es idéntica a la original, a pesar de las diferencias evidentes en los detalles, como los bigotes del gato.

Figura 4: Medición de calidad de imagen mediante LPIPS, SNR y SSIM

Con el desarrollo de LPIPS, hemos entrado en un territorio inexplorado en la evaluación de la calidad de imagen, uno que promete una sinergia entre la precisión computacional y la sutileza de la percepción humana. La métrica LPIPS, armada con el poder de las redes neuronales y el aprendizaje profundo, ofrece una perspectiva revolucionaria que trasciende las limitaciones de PSNR y SSIM, acercándonos a un entendimiento más profundo de 'calidad' que resuena con nuestra experiencia visual innata. A través de ejemplos claros, como la comparación de imágenes de un gatito, la supremacía de LPIPS se hace evidente, destacando las variaciones perceptuales que a menudo pasan desapercibidas por otras métricas. En definitiva, LPIPS no solo redefine la evaluación de la calidad de imagen, sino que también reafirma la relevancia de nuestro juicio humano en la era digital, marcando un paso significativo hacia una evaluación más general y auténtica de la calidad visual. Este avance no es solo una mejora técnica, sino un puente hacia un futuro donde la tecnología refleja más fielmente la complejidad y riqueza de la experiencia humana.