Red de conocimiento informático - Aprendizaje de código fuente - Procesamiento de imágenes digitales: Procesamiento de imágenes digitales: fundamentos

Procesamiento de imágenes digitales: Procesamiento de imágenes digitales: fundamentos

Este artículo también está publicado en mi blog personal: https://dragon_boy.gitee.io

La imagen se puede definir como una función bidimensional y son las coordenadas espaciales El tamaño de cualquier par de. Las coordenadas espaciales se llaman intensidad de la imagen o escala de grises de este punto. Cuando el número de valores discretos es limitado, llamamos a la imagen imagen digital. El procesamiento de imágenes digitales es el uso de computadoras para procesar imágenes digitales. Las imágenes digitales están compuestas por un número limitado de elementos, cada uno con una posición y tamaño específicos, llamados píxeles.

A menudo percibimos diferentes brillos en los límites de diferentes brillos.

Este es el patrón de brillo con bordes ásperos.

El brillo de un área percibida no depende simplemente de su intensidad; a medida que cambia el fondo, el brillo del objeto que se observa aparecerá más oscuro.

Como su nombre indica.

Aquí nos centramos simplemente en la banda visible del espectro electromagnético, que se puede dividir en seis regiones principales: violeta, azul, verde, amarillo, naranja y rojo.

La gente piensa que el color de un objeto está determinado por su luz reflejada, y los objetos absorben la mayor parte de la energía de otras longitudes de onda de luz.

La luz sin color se llama luz monocromática o luz incolora. La única propiedad de la luz monocromática es su intensidad. Dado que la intensidad percibida de la luz monocromática varía del negro al gris y al blanco, a menudo se utiliza la escala de grises para representar la intensidad de la luz monocromática. El rango de medidas de la luz monocromática del negro al blanco a menudo se denomina escala de grises, y las imágenes monocromáticas a menudo se denominan imágenes en escala de grises.

Cuando una imagen es producida mediante un proceso físico, su valor de brillo es proporcional a la energía irradiada por la fuente física, y por tanto debe ser distinto de cero y finito en el tiempo:

Esta función puede estar compuesta de dos caracterizadas parcialmente por: (1) la cantidad total de iluminación incidente en una escena de visualización desde una fuente de luz y (2) la cantidad total de luz reflejada por los objetos en la escena; Estas dos partes se denominan partes incidente y reflejada, denotadas por y , respectivamente. El producto de estas dos funciones es:

donde,

y

La intensidad de una imagen monocromática cero en cualquier coordenada se expresa como

, entonces el rango de valores es

donde, y.

Este intervalo se llama nivel de gris. En aplicaciones prácticas, el nivel de gris suele ser , donde el negro es negro y el blanco es blanco.

Para generar imágenes digitales, necesitamos convertir datos sensoriales continuos (como formas de onda de voltaje) en forma digital, lo que implica dos procesos: muestreo y cuantificación.

La función unidimensional en la Figura b es una curva de valor de amplitud de imagen continua distribuida a lo largo de AB. Tomamos muestras de esta función equidistantemente a lo largo del segmento de línea AB, con los resultados que se muestran en la Figura c, y luego cuantizamos los valores en escala de grises. Dividimos un nivel de gris en varios intervalos discretos, comparamos el valor de gris de cada muestra y establecemos el valor de gris más cercano al valor de gris al valor de gris más cercano al valor de gris Muestreo y cuantificación. La estructura se muestra en. Figura d.

Convierta dos variables continuas y funciones de imagen continua que representan imágenes continuas en imágenes digitales mediante operaciones de muestreo y cuantificación. Supongamos que se muestrea como una matriz con M filas y N columnas, de modo que el valor de origen de la imagen digital sea (esquina superior izquierda), lo que representa la segunda muestra en la primera fila.

La parte del plano real formada por las coordenadas de la imagen se llama dominio espacial, y la suma se llama variable espacial o coordenada espacial.

Aquí utilizamos la forma de una matriz para representar una imagen digital:

Cada elemento de la matriz puede ser un píxel.

El proceso de digitalización requiere juzgar M, N y el nivel de gris L. Por consideraciones de hardware de cuantificación y almacenamiento, el número de niveles de gris suele ser una potencia entera de 2, es decir, asumimos que los intervalos de niveles de gris discretos son iguales y los intervalos son números enteros. El rango de valores abarcados por los valores de escala de grises a veces se denomina informalmente rango dinámico. Aquí, configuramos el rango dinámico del sistema de imagen como la relación entre el nivel de gris máximo medible y el nivel de gris mínimo medible en el sistema. En términos generales, el límite superior depende de la saturación y el límite inferior depende del ruido, y definimos la diferencia de nivel de gris entre el nivel de gris más alto y el nivel de gris más bajo como contraste. Cuando el rango dinámico es mayor, se considera que la imagen tiene. Alto contraste.

La cantidad de bits necesarios para almacenar una imagen digital es:

Cuándo:

La siguiente tabla muestra la cantidad de bits necesarios para almacenar una imagen cuadrada, y tomó diferentes valores:

Intuitivamente, la resolución espacial es una medida del detalle más pequeño que se puede discernir en una imagen. Cuantitativamente, la resolución espacial se puede expresar mediante el número de pares de líneas por unidad de distancia y el número de píxeles por unidad de distancia. Supongamos que construimos una figura con líneas verticales blancas y negras alternadas cuyo ancho es una unidad y el ancho de los pares de líneas, es decir, hay un par de líneas por unidad de distancia. La resolución de imagen generalizada se define como el número máximo de pares de líneas que se pueden resolver por unidad de distancia. Los píxeles por unidad de distancia son una medida de resolución de imagen comúnmente utilizada en la industria editorial y de impresión. En los Estados Unidos, esta medida generalmente se expresa en puntos por pulgada (ppp).

Del mismo modo, la resolución en escala de grises se refiere al cambio más pequeño en la escala de grises que se puede distinguir.

La interpolación es una herramienta básica muy utilizada para tareas como escalado, reducción, rotación y corrección geométrica.

Por ejemplo, para ampliar una imagen con 1,5 veces el tamaño de píxel, una forma sencilla de ampliarla es crear una cuadrícula imaginaria con el mismo espacio que la imagen original y luego reducirla para que quede Una coincidencia exacta. El espaciado de píxeles de la cuadrícula reducida es menor que el de la imagen original. Para asignar un valor de escala de grises a cada punto cubierto, necesitamos encontrar el píxel más cercano en la imagen original y asignar el valor de escala de grises de ese píxel a la cuadrícula. . un nuevo píxel. Después de asignar valores de escala de grises a todos los puntos cubiertos por la cuadrícula, la imagen se amplía al tamaño original especificado para obtener la imagen ampliada.

El método anterior se llama interpolación del vecino más cercano, pero no se usa comúnmente porque causa una distorsión extrema. El método más utilizado es la interpolación bilineal. Utilizamos los 4 vecinos más cercanos para estimar el nivel de gris en una posición determinada, indicando el valor del nivel de gris a asignar:

Entre ellos, se pueden pasar 4 coeficientes. 4 Se determina la ecuación desconocida escrita en la vecindad.

Otro método más complejo es el método de interpolación bicúbica que contiene 16 puntos vecinos:

Entre ellos, se pueden escribir 16 coeficientes mediante una ecuación desconocida de 16 puntos vecinos para determinar.

El píxel ubicado en tiene 4 puntos vecinos horizontales y verticales:

Este grupo de píxeles se denomina 4 puntos vecinos, representados por .

Las coordenadas de 4 píxeles diagonalmente adyacentes son las siguientes:

Representado por . Estos puntos y sus 4 puntos vecinos se denominan 8-vecindad de

.

Se establece en un conjunto de valores de escala de grises utilizados para definir relaciones adyacentes. En una imagen en escala de grises, por ejemplo, un píxel crítico con una escala de grises de 0 a 255, puede ser cualquier subconjunto de los 256 valores. Considere 3 tipos de relaciones de adyacencia:

Las relaciones de adyacencia se utilizan para eliminar la dualidad de las relaciones de adyacencia.

Una ruta de píxel a píxel es una secuencia específica de píxeles:

son las coordenadas de, son las coordenadas de, los píxeles adyacentes son adyacentes entre sí y es la longitud de el camino. Las rutas se pueden nombrar según la proximidad de los píxeles adyacentes.

Sea un subconjunto de píxeles en la imagen. Si hay una ruta entre todos los píxeles de la imagen, entonces y en . Para cualquier píxel de una imagen, el conjunto de píxeles conectados a ese píxel se denomina componente conectado. Si solo hay un componente conexo, el conjunto se llama conjunto conexo.

Se establece en un subconjunto de píxeles de la imagen. Si una región es un conjunto conexo, se llama región. Si dos regiones están conectadas en un conjunto conexo, se llaman regiones adyacentes.

Suma de distancias euclidianas entre píxeles:

Distancia a manzana de ciudad:

Distancia de tablero de ajedrez:

Las imágenes se pueden equiparar a matrices. Las operaciones terrestres difieren entre arreglos y matrices. La multiplicación de matrices es evidente, pero la multiplicación de matrices es la multiplicación de cada píxel en relación con otros píxeles.

Una de las clasificaciones más importantes de un método de procesamiento de imágenes es si es lineal o no lineal. Considere un operador general que produce una imagen de salida para una imagen de entrada determinada:

si

es un operador lineal. De lo contrario, es una operación no lineal (como la operación de maximización).

Es decir, suma, resta, multiplicación o división entre dos matrices (ambas imágenes deben tener el mismo tamaño).

Dividido en tres categorías: (1) Operación de un solo píxel. (2) Operación vecinal.

(3) Transformación espacial geométrica.

La operación más sencilla realizada en una imagen digital es cambiar el valor de un solo píxel en escala de grises:

donde es la escala de grises del píxel en la imagen original y es la Imagen procesada La escala de grises del píxel correspondiente en la imagen.

Representa el conjunto de coordenadas de vecindad centrado en cualquier punto de la imagen. El procesamiento de vecindad genera un píxel correspondiente en las mismas coordenadas en la imagen de salida, cuyo valor está determinado por la operación especificada en el píxel en las coordenadas de la imagen de entrada.

La transformación geométrica incluye dos operaciones básicas: (1) Transformación espacial de coordenadas. (2) Interpolación en escala de grises, asignando valores de escala de grises a píxeles después de la transformación espacial.

Transformación de coordenadas:

Es la coordenada del píxel en la imagen de origen, y es la coordenada del píxel en la imagen transformada. es la matriz de transformación.

Los métodos de interpolación en escala de grises se han mencionado anteriormente (interpolación bilineal, interpolación bicúbica).

Alineación de imagen:

Por ejemplo, cuando se transforma radialmente una imagen, se generan restricciones en las cuatro esquinas, y la transformación de estas restricciones se puede utilizar para alinear la imagen.

Además del procesamiento en el dominio espacial, también se puede procesar en el dominio de la frecuencia.

Además del procesamiento en el dominio espacial, el procesamiento también se puede realizar en el dominio de la frecuencia.