Red de conocimiento informático - Aprendizaje de código fuente - Fundamentos de medios digitales 2: representación de imágenes digitales

Fundamentos de medios digitales 2: representación de imágenes digitales

Este artículo se basa en "Ciencia de los medios digitales" y proporciona una descripción general y un resumen de los conocimientos teóricos básicos, como la adquisición de imágenes digitales y el modelado de color. Incluye principalmente introducciones relevantes a la adquisición de imágenes vectoriales y de mapas de bits, frecuencia espacial de imágenes, transformada de coseno discreta bidimensional, conceptos básicos de la ciencia del color, curvas de Bézier y algoritmos artísticos.

Los tipos de imágenes digitales se pueden dividir en tres tipos: imágenes de mapa de bits, vectoriales y algorítmicas y de modelado post-programa. Las imágenes de mapa de bits, también conocidas como imágenes de píxeles o imágenes rasterizadas, se crean especificando el color de cada píxel píxel a píxel. Las imágenes vectoriales se crean utilizando definiciones de objetos y fórmulas matemáticas para describir colores y formas. El modelado posprocedimiento de imágenes, también conocido como arte algorítmico, utiliza una combinación de matemáticas, lógica, estructuras de control y recursividad para determinar el color de cada píxel.

Los mapas de bits se pueden crear dibujando con un programa de dibujo como Photo Shop, escaneando una imagen analógica con un escáner o fotografiándola con una cámara digital. La atención se centra aquí en los mapas de bits capturados con una cámara digital.

El proceso de creación de mapas de bits utilizando una cámara digital se puede dividir en dos etapas: muestreo y cuantificación. El muestreo se refiere al proceso de extraer píxeles discretos de imágenes simuladas continuas. Algunos dispositivos permiten a los usuarios establecer la frecuencia de muestreo al tomar una foto o grabar un video, que es la cantidad de píxeles capturados en las dimensiones horizontal y vertical durante el muestreo. Por ejemplo, en un iPhone con iOS 12, puedes configurar la frecuencia de muestreo para la grabación de vídeo en la pantalla de configuración.

La cuantización es el proceso de especificar un modelo de color y la profundidad de bits correspondiente, y utilizar valores reales para representar los colores de los píxeles. A continuación se muestra una imagen cuantificada y muestreada correctamente.

Tanto el proceso de muestreo como el de cuantificación generan errores. Es decir, la imagen resultante no es la imagen original que observamos. Si la frecuencia de muestreo utilizada en el proceso de muestreo es demasiado baja, la imagen perderá muchos detalles. Como puede ver en la imagen a continuación, cuando se muestra en el mismo tamaño que la imagen original, vemos muchas variaciones de color, como un efecto de mosaico.

Del mismo modo, si la profundidad de bits se establece demasiado baja durante la cuantización, la imagen resultante tendrá una gama de colores muy limitada. Es decir, algunos colores similares se representarán como el mismo color y la imagen perderá muchos detalles, como se muestra en la siguiente figura.

Describimos el tamaño de una foto en términos de la cantidad de píxeles de ancho y alto, y para las pantallas de computadora, la cantidad de píxeles está relacionada con la cantidad de aspectos destacados específicos en la pantalla. Por lo tanto, para diferenciar claramente entre estas dos situaciones diferentes, utilizamos el término píxeles lógicos cuando describimos el tamaño de una foto y píxeles físicos cuando describimos las pantallas de computadora.

Los anuncios de la vida diaria suelen describir que las cámaras de los teléfonos móviles tienen varios megapíxeles, lo que se refiere al tamaño máximo de píxeles que el dispositivo puede admitir. Si su hardware es capaz de generar imágenes con un tamaño máximo de píxeles lógicos de 2048*1536, esto significa que la imagen más grande que el dispositivo puede generar contiene 3.145.728 píxeles, o 3 millones de píxeles. Tenga en cuenta que algunos fabricantes de cámaras utilizan el "zoom digital" para aumentar el rendimiento de la cámara, un método de software que aumenta el número de píxeles de una imagen pero que en realidad no mejora la claridad.

La resolución se define como el número de píxeles por pulgada de espacio dentro de un tamaño específico de un archivo de imagen, medido en ppp, por ejemplo 200 ppp.

La resolución de impresión se refiere al número máximo de puntos por pulgada de espacio que la impresora puede imprimir, en ppp, por ejemplo, 1440 ppp.

El tamaño de la imagen se refiere al tamaño físico de un archivo de imagen cuando se imprime o es visible en la pantalla de una computadora. Tamaño físico. Las unidades son pulgadas o centímetros.

Cambiar el tamaño de píxeles de una imagen se llama remuestreo. Aumentar el tamaño de píxel ampliando la imagen se denomina muestreo ascendente, y disminuir el tamaño de píxel reduciendo la imagen se denomina muestreo descendente. El aumento de resolución de píxeles es solo un cálculo de interpolación basado en los píxeles originales, mientras que el aumento de resolución del valor de píxel es el promedio de los valores de píxeles existentes, ninguno de los cuales mejora la claridad de la imagen.

En esta serie de artículos sobre datos digitales, hemos demostrado que los datos se pueden representar mediante funciones y transformar de un dominio a otro sin perder información. Esta ley también se aplica a las imágenes digitales y el teorema de Nyquist todavía se aplica a las imágenes digitales.

Para la imagen en escala de grises en el lado izquierdo de la figura anterior, imagine una línea paralela al eje x y represente su valor en escala de grises como y y la posición del píxel como x. Para una imagen en color con canales RGB, haga lo mismo con sus tres canales. En la imagen de la derecha, asumimos que la imagen en escala de grises de la izquierda tiene un período repetitivo, por lo que obtenemos una forma de onda que se repite con un período que se repite.

Al procesar imágenes digitales, obtendremos datos discretizados, como se muestra arriba a la izquierda. También podemos obtener formas de onda periódicas repitiendo señales periódicas, como se muestra arriba a la derecha.

De hecho, al procesar fotografías digitales reales, también podemos dividir la imagen en 3 canales RGB y procesar cada canal por separado. Aquí, para mostrar simplemente los colores, procesamos la imagen en una imagen en escala de grises como se muestra en la imagen de arriba a la izquierda. Seleccionamos una línea de píxeles y dibujamos su forma de onda usando la misma técnica que antes, como se muestra arriba a la derecha. Como puede ver, podemos utilizar una forma de onda bidimensional para describir una línea de píxeles en una imagen digital.

Ya hemos mencionado que podemos utilizar una forma de onda bidimensional para describir una fila de píxeles en una imagen digital, pero esto no es suficiente. La imagen es bidimensional, por lo que también tenemos que encontrar una manera de describir los cambios en los píxeles en los ejes x e y. Las formas de onda espaciales son una excelente manera de lograr esto. Por ejemplo, el lado izquierdo de la imagen de arriba es una imagen en escala de grises. Al asignar la posición de sus píxeles al eje x y al eje y en el espacio tridimensional, y asignar su valor real en escala de grises al eje z. Podemos obtener una imagen tridimensional. Diagrama de forma de onda espacial, la imagen en el lado derecho de la imagen de arriba.

Para imágenes digitales reales, tomando como ejemplo las imágenes de aves, solo consideramos sus imágenes en escala de grises. Para imágenes en color con canales RGB, simplemente separe los tres canales de color RGB y proceselos de manera similar. El lado izquierdo de la imagen de arriba es la imagen digital real y el lado derecho es la forma de onda espacial convertida. Como puede ver, podemos utilizar formas de onda espaciales para describir cualquier imagen digital. Esto es muy importante porque sólo cuando podamos utilizar modelos físicos para describir imágenes digitales podremos procesarlas más cómodamente. A través de la descripción de la forma de onda espacial, podemos convertirla en frecuencias espaciales, que es la base matemática de las imágenes comprimidas con pérdida.

El primer artículo de esta serie presenta la serie de Fourier y las diversas transformadas de Fourier derivadas de ella, y proporciona una derivación detallada. Hemos demostrado que cualquier función periódica que satisfaga las condiciones de Dirichlet se puede descomponer en un número infinito de funciones sinusoidales simples. Dado que la función seno Asin(ωx φ) se puede expandir usando la fórmula trigonométrica para obtener el valor del coseno, el componente coseno siempre está presente en la fórmula. La transformada discreta del coseno es el resultado de aproximar el término del seno bajo ciertas condiciones. Para una introducción detallada, consulte el primer artículo de esta serie, "Representación y procesamiento de señales digitales".

La figura anterior muestra un diagrama esquemático de la transformada del coseno discreto; nuevamente, esto es solo un diagrama esquemático. La forma de onda más a la derecha se puede sintetizar a partir de las 3 formas de onda básicas de la izquierda. Para formas de onda más complejas, aún es posible convertirlas en una combinación de múltiples formas de onda simples. El tema de esta composición de imágenes digitales puede explicarse por el hecho de que una sola fila de píxeles se puede convertir en una composición de formas de onda subyacentes.

Lo anterior es la fórmula de la transformada inversa del coseno discreto, donde f[u] es la función de la señal original en el dominio de la frecuencia y M es el número de la señal original. Esta es la fórmula de transformación de coseno discreta unidimensional. De hecho, la fórmula de transformación de coseno discreta bidimensional debe usarse en el procesamiento de imágenes digitales, que se presentará en la segunda mitad de esta publicación. Primero nos centraremos en la transformada de coseno discreta unidimensional y la usaremos para ilustrar cómo segmentar una fila de píxeles en una imagen en una combinación de formas de onda.

Considere una imagen digital con una fila de 8 píxeles adyacentes en escala de grises, como se muestra arriba.

Elegimos 8 formas de onda básicas.

Y calcule 8 píxeles de cada forma de onda. Como se muestra en la figura anterior, la función más a la izquierda es la fórmula de la función trigonométrica de la forma de onda básica, el gráfico del medio es su diagrama de forma de onda y las filas de píxeles de la derecha son los primeros 8 valores de píxeles válidos calculados en función de la forma de onda básica. .

Como se mencionó anteriormente, cualquier columna de píxeles se puede representar mediante una forma de onda bidimensional. Estas formas de onda bidimensionales deben satisfacer las condiciones de Dirichlet y deben poder descomponerse en combinaciones de formas de onda elementales. Lo que tenemos que hacer ahora es calcular los coeficientes de cada forma de onda fundamental, en otras palabras, calcular el valor de la función en el dominio de la frecuencia. Esto se puede calcular mediante la fórmula de transformada de coseno discreta, la fórmula unidimensional es la siguiente.

En la fórmula anterior, f(r) es la función de dominio espacial, es decir, el valor de gris específico de una fila de píxeles en el procesamiento de imágenes digitales en escala de grises, r es la coordenada del punto de píxel y M es el número total de píxeles en esta fila. u puede entenderse como la función en el dominio de la frecuencia del valor de frecuencia, y la parte después de cos entre paréntesis es la función trigonométrica de la forma de onda básica. Tenga en cuenta que la función en el dominio de la frecuencia tiene la misma cantidad de valores de frecuencia que la función en el dominio espacial tiene la misma cantidad de valores de argumento. Para imágenes digitales, esto significa que hay tantos componentes de frecuencia como píxeles seguidos.

Usando la fórmula anterior, podemos calcular el valor de la función en el dominio de la frecuencia. Dado que hay 8 píxeles en la fila de píxeles del ejemplo, podemos calcular 8 componentes efectivos en el dominio de la frecuencia, a saber, F (u) El producto. del valor en [0, 7] y la constante en la fórmula de transformación de coseno discreto es [w0 ~ w7] = [389.97, -280.13, -93.54, 83.98, 54.09, -20.51, -19.80, -16.34], son los coeficientes de cada forma de onda fundamental cuando se combinan con la forma de onda original. Es decir, la suma de las funciones de supresión de todos los componentes de frecuencia multiplicada por sus coeficientes es la imagen original.

La figura anterior muestra el proceso de fusionar la imagen original con la imagen obtenida utilizando la forma de onda básica. Tenga en cuenta que entre los pesos de los componentes de frecuencia obtenidos mediante la transformada de coseno discreto, F(0) se denomina componente de CC y de F(1) a F(M-1) se denominan componentes de CA. El término proviene de circuitos analógicos, donde el componente de CC está relacionado con los circuitos de CC y el componente de CA está relacionado con los circuitos de CA.

Las imágenes digitales tienen propiedades físicas bidimensionales, por lo que cuando procesamos imágenes digitales, utilizamos una transformada de coseno discreta bidimensional. La fórmula de cálculo es la siguiente.

Para imágenes digitales en escala de grises, la función bidimensional del dominio espacial en la fórmula anterior es f(r, s), que describe la escala de grises de la imagen original en las coordenadas de píxeles (la abscisa es r , la ordenada es s) Los valores, M y N son el número de píxeles en las direcciones horizontal y vertical respectivamente, (u, v) es la frecuencia espacial, el producto de dos funciones coseno es la función bidimensional subyacente de la espacial onda, y F (u, v) describe la imagen original. La función de dominio espacial f (u, v). La función de dominio espacial f (r, s) de la imagen es la función correspondiente en el dominio de frecuencia. Los valores efectivos de u y v son [0, M-1] y [0, N-1] respectivamente. función F(u, v) Cada valor de es un coeficiente de la onda espacial bidimensional correspondiente.

Vale la pena señalar que la transformada de coseno discreta generalmente se limita a subbloques de 8×8 píxeles (también llamados macrobloques) en el dominio de procesamiento de imágenes. Esto puede reducir en gran medida la complejidad computacional y mejorar la eficiencia del procesamiento de imágenes. Este es el paso más importante en la compresión de imágenes JPEG y la compresión de vídeo MPEG. Por supuesto, los diferentes estándares de codificación tienen diferentes opciones para el tamaño de los macrobloques, pero normalmente se elige entre los dos tamaños, 8 por 8 y 16 por 16. Más adelante, también lo hará. se discutirá en detalle en el artículo de video digital.

La imagen de arriba es un macrobloque de 8 por 8 píxeles. Contamos los valores de escala de grises en la siguiente matriz de color.

Luego, utilizamos la transformada de coseno discreta bidimensional que acabamos de presentar para calcular el coeficiente de cada uno de sus componentes de frecuencia espacial, es decir, el valor de la función F(u, v), obteniendo así la siguiente matriz de amplitud de componentes de frecuencia. De manera similar a la fórmula de transformación de coseno discreta unidimensional, F (0, 0) se denomina componente de CC y los valores restantes se denominan componentes de CC.

Así como una fila de píxeles se puede descomponer en múltiples funciones básicas mediante una transformación de coseno discreta unidimensional, y luego se puede componer y restaurar. Las imágenes digitales bidimensionales también se pueden descomponer en múltiples funciones básicas mediante una transformada de coseno discreta bidimensional y luego sintetizarse a través de estas funciones básicas. La diferencia es que las funciones de base obtenidas mediante la descomposición de la transformada de coseno discreta unidimensional se pueden representar mediante formas de onda bidimensionales, mientras que las funciones de base obtenidas mediante la descomposición de la transformada de coseno discreta bidimensional se representan mediante formas de onda espaciales tridimensionales. La fórmula para la transformada de coseno discreta inversa bidimensional es la siguiente.

Para el macrobloque de 8 por 8 píxeles del ejemplo anterior, la fórmula de la transformada de coseno discreta inversa bidimensional debe consistir en 8 por 8 y una función de base ****64. Lo que se puede expresar es una forma de onda bidimensional, y cada forma de onda se puede representar como una imagen bidimensional simple, como se muestra a continuación.

Cada imagen es el resultado de multiplicar los valores de los dos últimos componentes del coseno en la fórmula bidimensional de inversión de coseno discreto en el punto discreto P(r, s), donde los espacios de valores de r y s son ambos Es [0, 7].

Cualquier imagen bidimensional de 8 x 8 se puede sintetizar a partir de las funciones básicas anteriores, y los coeficientes o pesos de cada función base se pueden calcular mediante la transformada de coseno discreta bidimensional. El valor de la parte eliminada constante de F(u, v) también se denomina matriz de amplitud del componente de frecuencia. Para mapas de color que utilizan el modelo de color RGB, solo es necesario procesar 3 canales por separado, es decir, 3 procesos DCT.

El ejemplo de macrobloque de 8×8 píxeles anterior multiplica la matriz de amplitud del componente de frecuencia con la constante en la ecuación de transformada de coseno discreta inversa bidimensional multiplicada por su correspondiente función de frecuencia fundamental, y luego la suma para sintetizar la Imagen bidimensional original.

Veamos un ejemplo más práctico, tomado de la imagen del pájaro anterior, donde seleccionamos uno de los macrobloques de 8 x 8 píxeles, como se muestra a continuación.

Usamos el eje Z para representar el valor de color de cada píxel, y el eje X para representar el valor del índice del píxel en las direcciones horizontal y vertical respectivamente, y dibujamos el histograma de los píxeles en el siguientes espacios en blanco.

Utilizamos la transformada de coseno discreta bidimensional para calcular el coeficiente de cada componente de frecuencia, es decir, el valor de la función en el dominio de la frecuencia F(u, v). Usamos el eje z para representar el valor de F (u, v) y el eje xy para representar la frecuencia en las direcciones horizontal y vertical respectivamente. Finalmente, obtenemos el siguiente histograma de las amplitudes de los componentes de frecuencia.

Podemos ver que en el histograma de amplitud del componente de frecuencia anterior, el componente de CC es el más grande y hay algunos componentes de CA más pequeños. Su producto con el término constante en la fórmula de transformada de coseno discreta bidimensional es. utilizado como base Los coeficientes de la función de frecuencia pueden restaurar la imagen original.

Cabe señalar que en el histograma de amplitud del componente de frecuencia, a excepción de algunos componentes de frecuencia alejados del origen, los componentes de CA restantes son casi 0. En otras palabras, podemos descartar completamente la frecuencia en el componentes de la esquina inferior derecha, pero aún puede restaurar la imagen original. Esto se debe a que la frecuencia espacial en la esquina inferior derecha es muy alta, lo que ha excedido la precisión de discriminación del ojo humano desde un punto de vista psicológico. Este tipo de procesamiento es también la base teórica para la compresión JPEG y la compresión intracuadro en MPEG.

La aplicación de la frecuencia de Nyquist en imágenes digitales se puede entender como que cuando la frecuencia de muestreo horizontal y vertical es inferior al doble de la frecuencia más alta de sensibilidad del ojo humano, la imagen se distorsionará. Cuando la muestra obtenida se amplía a su tamaño original, aparecen notables efectos irregulares y de bloques.

A continuación se muestra la fotografía que produjimos utilizando la frecuencia de muestreo adecuada.

Y cuando utilizamos una frecuencia de muestreo demasiado baja, obtendremos fotografías como esta. Este fenómeno también se conoce como sobremuestreo.

Los patrones muaré se refieren a la interferencia de alta frecuencia producida por las imágenes digitales durante el proceso de muestreo. Cuando la frecuencia de muestreo no es suficiente pero está lo suficientemente cerca de los detalles de la imagen original, se trata de una franja irregular de alta frecuencia. Hará que la imagen parezca colorida. Además, se obtendrán patrones muaré cuando la dirección de muestreo esté en un cierto ángulo con respecto a la dirección de la textura de la imagen original.

Como se muestra en la figura anterior, la dirección de la textura de la imagen izquierda está en un cierto ángulo con la dirección de muestreo y la frecuencia de muestreo está cerca de la frecuencia de la imagen original. de la parte negra excede la mitad del área de muestreo, el resultado del muestreo es negro, de lo contrario es blanco. De esta manera, obtenemos la imagen de la derecha. Podemos ver que la imagen ha sido significativamente distorsionada, que es el interesante patrón muaré.

Una vez que entendamos qué es el muaré, recuerde cuando vemos el efecto de destello de las cortinas transparentes cuando están plegadas y el efecto de remolino de las sillas tejidas a través de la pantalla. Todas estas son cosas que experimentamos en la vida. patrón muaré.

De nuevo, veamos una imagen real, una mochila hecha de un material con texturas de alta frecuencia, como se muestra a continuación.

Para este tipo de escena, cuando nuestra frecuencia de muestreo no está sincronizada con la frecuencia de la imagen original, es probable que aparezca muaré, como se muestra en la siguiente figura.

La imagen original real se encuentra a continuación.

Al tomar fotografías con una cámara digital, puedes solucionar el problema del muaré inclinando el ángulo de la cámara, cambiando la distancia focal o cambiando la lente. Esto cambia la orientación de la muestra, generalizando las frecuencias espaciales de la imagen original.

Las cámaras tradicionales utilizan película recubierta de plata para crear imágenes. La película está dividida en tres capas, que son sensibles a la luz roja, verde y azul.

Las cámaras digitales utilizan tecnología de dispositivo de carga acoplada (CCD) para detectar la luz y el color, y el semiconductor complementario de óxido metálico (CMOS) es otra nueva tecnología de detección de luz.

Entre ellos, el CCD consta de una matriz de puntos de imagen bidimensional, cada punto de la imagen corresponde a una muestra (un píxel en la imagen digital) y cada muestra está cubierta por un rojo, un verde y un filtro azul.

Existen 4 formas de implementar CCD. El primer método consiste en dividir la luz incidente en 3 haces e instalar 3 sensores en cada punto de detección de luz. Cada sensor solo puede detectar luz roja, luz verde y luz azul respectivamente. La ventaja de esto es que cada píxel puede obtener directamente el valor original de 3 colores, pero la desventaja es que el costo es alto, lo que hace que la cámara sea demasiado grande.

El segundo método consiste en girar el sensor al tomar fotografías, de modo que se pueda detectar la luz roja, verde y azul de forma continua. La desventaja de este método es que no puede percibir tres colores al mismo tiempo y sólo puede tomar fotografías estáticas.

Un tercer enfoque, como el Foveon X3, utiliza sensores de silicio que utilizan tecnología de apilamiento vertical. Diferentes profundidades de silicio absorben diferentes longitudes de onda de luz, por lo que se pueden percibir tres colores simultáneamente en un punto de la imagen.

El cuarto y más común método es utilizar un filtro Bayer, que detecta solo un color por punto de la imagen y utiliza la interpolación para calcular los valores de los otros dos componentes. Este método es económico pero a veces produce distorsión del color.

La imagen de arriba es un diagrama esquemático de un filtro de color Bayer, en el que el número de píxeles sensibles al verde es el doble que el de los otros dos píxeles, porque el ojo humano es más sensible a la luz verde.

Después de obtener los datos originales, necesitamos calcular el color de los píxeles mediante interpolación. Este método de cálculo del color se denomina algoritmo de demostración. Uno de los métodos más simples es el método del vecino más cercano. Para cada punto de la imagen donde se recopila el componente G, los valores de los componentes R y B se calculan simplemente tomando el promedio de dos puntos de la imagen adyacentes. Para calcular los valores de los otros dos componentes de los puntos componentes R y B, es necesario tomar el promedio de cuatro puntos adyacentes. Los puntos de color adyacentes dentro del área de cálculo se muestran en la siguiente figura.

El algoritmo de interpolación en sí no hace un buen trabajo a la hora de reconstruir la escena que se está capturando, por lo que durante el proceso aparecerán algunas distorsiones como muaré, manchas de color y puntos.

Como se muestra en la imagen de arriba a la izquierda, supongamos que se captura una línea blanca y que la línea blanca pasa a través del sensor CCD. Supongamos que ambos lados de la línea blanca son negros. Como se muestra en la figura de la derecha, al interpolar, para los puntos de la imagen por los que pasa la línea blanca, al interpolar cada punto de la imagen, el valor extraído del punto de la imagen adyacente siempre es 0, por lo que para la imagen por la que pasa la línea blanca a través del punto, su color no se puede calcular a partir de puntos de imagen adyacentes y la imagen resultante se distorsionará.

Algunas cámaras utilizan un filtro anti-aliasing o eliminación de ruido en la lente, que efectivamente difumina la imagen, reduciendo así la distorsión del color.

Los fabricantes de cámaras hacen de esta una característica opcional y usted puede activar el filtro antialiasing en la configuración. Sin embargo, las cámaras de alta calidad no suelen tener esta característica.

Al representar líneas diagonales en la pantalla de una computadora, a veces se ven bordes irregulares, que es una distorsión causada por la resolución limitada de la computadora. En geometría, las líneas se componen de innumerables puntos, mientras que las líneas en la pantalla de una computadora se componen de píxeles discretos.

En la imagen de arriba, la imagen de la izquierda es una línea real de 2 píxeles. Supongamos que pintamos cada muestra de negro. Cuando más de la mitad de su área interior esté cubierta, obtendremos la imagen. a la derecha.

El antialiasing es una técnica que reduce la irregularidad o distorsión de líneas rectas o bordes. Un posible enfoque es pintar píxeles en el borde de una línea con un color específico que sea proporcional a la proporción del contenido cubierto y relacionado con el color del punto más cercano en la línea.

Como se muestra en la imagen de arriba, el mapa de bits utiliza muestreo superior para aumentar el valor del píxel al ampliarlo e interpola para calcular el color del píxel, resaltando así los bordes irregulares.

Como se mencionó anteriormente, debido a que los gráficos vectoriales se dibujan en tiempo real, no se distorsionan cuando se amplían en comparación con los mapas de bits.

La ciencia del color es un tema interesante en sí mismo y aquí solo se tratan los conceptos básicos más importantes. Para obtener más detalles, consulte los dos libros de referencia siguientes.

El color es a la vez un fenómeno físico (ondas electromagnéticas) y un fenómeno psicológico (cuando estas ondas electromagnéticas inciden en los receptores de color del ojo humano, el cerebro humano controla las ondas electromagnéticas y los ojos de forma sencilla. la interacción entre ellos se llama percepción del color). Los colores que percibimos en la naturaleza son combinaciones de diferentes longitudes de onda.

La investigación anatómica moderna muestra que hay tres tipos de células cónicas en el ojo humano, a saber, conos de tipo L, M y S, que son sensibles a las baterías de onda larga, media y corta. ondas respectivamente, como se muestra en la siguiente figura.

Los materiales en la naturaleza tienen diferentes reflectividades para ondas electromagnéticas de diferentes longitudes de onda. Por ejemplo, las hojas de espinaca reflejan principalmente ondas electromagnéticas con una longitud de onda de aproximadamente 550 nm. Las ondas electromagnéticas reflejadas son luego detectadas por los conos y, finalmente, el cerebro genera un concepto de color calificado.

Newton realizó por primera vez un estudio sistemático del color. Descubrió que los colores se pueden obtener mezclando y propuso en su artículo de Lin el concepto de rueda cromática, también conocida como rueda cromática de Newton. se muestra en la siguiente figura.

Los tres elementos del color son matiz, saturación y luminosidad. Entre ellos, el tono (también llamado tono) puede entenderse como la longitud de onda dominante del color. En la periferia del círculo se encuentran todas las luces monocromáticas de energía unitaria obtenidas al descomponer la luz blanca. El tono comienza en rojo y aumenta hacia el amarillo.

La saturación (croma, también conocida como pureza) se puede entender como la cantidad de luz blanca mezclada con luz monocromática. Si se mezcla suficiente luz blanca, menor será la saturación y más cercana será. a gris.

El brillo es un concepto subjetivo, relacionado con la percepción del observador. El color percibido por el ojo humano representa la intensidad luminosa. El valor de brillo monocromático en unidades de energía se suele definir como 1, y reduce gradualmente su intensidad luminosa. , y el brillo también disminuirá. Cuando la intensidad luminosa es 0, el valor de brillo es 0.

Lo que hay que tener en cuenta es Luminancia. Lo que hay que tener en cuenta es que las tres palabras Luminancia, Brillo y Luminosidad son fáciles de confundir.

Entre ellos, el brillo se refiere al valor percibido de la energía de la radiación luminosa por el ojo humano, y la unidad del dispositivo son las liendres, es decir, la luz de una vela por metro cuadrado. Normalmente cuando hablamos de brillo, nos referimos al brillo relativo, es decir, su Y/Yr, y Yr se refiere al brillo de la luz blanca de referencia.

El brillo se refiere a la cantidad de luz que percibimos visualmente. Esta es una generalización muy subjetiva que no tiene una definición matemática en el mundo. El brillo tiene una definición matemática clara, que está relacionada con la longitud de onda y la energía de la luz, y también está relacionada con el brillo percibido por el ojo humano. Curiosamente, dado que diferentes longitudes de onda de luz tienen la misma potencia, la onda de 550 nm parece más brillante para el ojo humano.

El brillo se refiere al brillo relativo de un color y un color blanco en el mismo ambiente de luz.

El sistema de color Munsell que se muestra en la siguiente figura es un sistema anterior para describir el color. Utiliza tres dimensiones: brillo (Value), tono (Hue) y saturación (Chroma).

Una forma científica de representar el color es la función de densidad espectral, pero este método no suele ser utilizado por los sistemas informáticos. Esto se debe a que múltiples funciones de densidad espectral pueden representar el mismo color percibido por el ojo humano.

La figura anterior muestra una función de densidad espectral simplificada, donde el tono está determinado por la longitud de onda dominante, el brillo está determinado por el área de la imagen encerrada por la función y la saturación está determinada por la relación entre el pico y el área total, calculada de la siguiente manera.

Colores comunes Hay muchas formas de representar los colores, a las que se les llama espacios de color. Se denominan espacios de color e incluyen principalmente RGB, CMKY, transformación cilíndrica, CIE estándar y croma de luminancia.

RGB es una constante basada en la longitud de onda, rgb es el coeficiente de cada componente constante, también llamado canal de color. Tenga en cuenta que el modelo de color RGB no define las tres longitudes de onda de luz utilizadas.

Como se muestra en la figura anterior, todos los colores del modelo de color RGB son el resultado de mezclar los tres colores primarios. Los colores complementarios rojo, verde y azul son cian, magenta y amarillo respectivamente. El rango de valores de rgb en los modelos matemáticos es de 0 a 1, y en los programas de procesamiento de imágenes suele ser de 0 a 255. La investigación psicológica muestra que el ojo humano es más sensible al verde. Utilizando la sensibilidad de estos tres colores, la fórmula para calcular la escala de grises o el brillo se puede obtener del modelo de color RGB de la siguiente manera.

CMY es un modelo de color sustractivo, que representa la proporción de componentes rojos, verdes y azules restados de la luz blanca. La fórmula de conversión entre este modelo de color y el modelo de color RGB es la siguiente.

Dado que el resultado de la mezcla CMY no es negro puro, el componente K se introduce en el modelo de color CMYK para representar el negro puro. La fórmula de conversión es la siguiente.

El color se expresa en función del tono (color primario), la saturación, el valor o el brillo del propio color. A continuación se muestra el modelo de color de valor de tono-saturación (HSV), también conocido como modelo de color de tono-saturación-brillo (HSB).

Modelo de color Tono-Luminosidad-Saturación (HLS).

La Comisión Internacional de Luminiscencia e Iluminación (CIE) realizó una vez un experimento de mezcla de colores. El experimento utilizó luz roja, verde y azul estándar con longitudes de onda de 700 nm, 546,1 nm y 435,8 nm respectivamente como tres monocromáticas. luces. Se requiere participación Los experimentadores controlaron el contenido de tres unidades de luz hasta que pensaron que era del mismo color que la luz monocromática de esa unidad de energía en el espectro visible. Y en base a esto, se dibuja el siguiente diagrama de función de combinación de colores.

Los experimentos muestran que si desea utilizar tres colores primarios RGB para mezclar todos los colores puros de una sola longitud de onda en la naturaleza, a veces es necesario restar parte de la luz roja de la mezcla de verde y azul, es decir , añade luz roja al color puro.

Además, ningún monitor de ordenador puede combinar toda la luz visible de su propia luz roja, verde y azul. La gama de colores que puede mostrar un monitor en particular se denomina gama de colores. Diferentes modelos de monitores con el mismo modo de color pueden tener diferentes gamas de colores y, de manera similar, diferentes modos de color en el mismo monitor necesariamente tendrán diferentes gamas de colores.

A partir de este resultado experimental, la Comisión Internacional de Iluminación Luminosa propuso en 1931 el modelo de color CIE XYZ, expresado mediante la fórmula anterior. Se supone que teóricamente existen tres longitudes de onda únicas de luz visible. de los tres componentes tienen valores positivos. Mediante una selección deliberada, el coeficiente de Y en la fórmula anterior tiene la misma forma que la función de eficiencia luminosa en el modelo matemático, es decir, Y puede entenderse como brillo.

El modelo de color RGB y el modelo de color CIE-XYZ se pueden convertir mediante la siguiente fórmula.

Para representar más cómodamente las áreas superpuestas de varios modelos de color, es necesario dibujar un diagrama de gama de colores en un plano bidimensional.

Primero, normalice la función de energía de los tres componentes de XYZ usando la siguiente ecuación.

Entonces, la función del parámetro del modelo de color CIE-XYZ se expresa de la siguiente manera.