Red de conocimiento informático - Computadora portátil - La bolsa de características es un método de clasificación de imágenes. ¿Qué se traduce al chino? Solicitud urgente. . .

La bolsa de características es un método de clasificación de imágenes. ¿Qué se traduce al chino? Solicitud urgente. . .

Bolsa de palabras original, también conocida como "bolsa de palabras". En la recuperación de información, el modelo de bolsa de palabras supone que para un texto, se ignoran el orden de las palabras, la gramática y la sintaxis, y solo se considera una colección de palabras. , o una combinación de palabras. La aparición de cada palabra en el texto es independiente, independientemente de si aparecen o no otras palabras, o cuando el autor de este artículo elige una palabra en cualquier posición, es independiente y no se ve afectada por la oración anterior.

Las bolsas de palabras en visión por computadora también son muy populares ahora para representar la descripción de características de las imágenes. La idea general es esta. Supongamos que hay cinco categorías de imágenes, cada categoría tiene 10 imágenes. Esto divide cada imagen en pequeños parches (ya sea segmentación rígida o detección de puntos clave como Sift). De esta manera, cada imagen está representada por muchos parches pequeños y cada parche pequeño está representado por un vector de características. Suponemos que una imagen está representada por SIFT y que cada imagen puede tener cientos de parches.

A continuación, se construirá un modelo de bolsa de palabras. Supongamos que el tamaño del diccionario es 100, es decir, hay 100 palabras. Luego podemos usar el algoritmo K-means para agrupar todos los parches, k = 100. Sabemos que cuando k-means converge, también obtenemos el centroide final de cada grupo, por lo que estos 100 centroides (dimensión 128) son las 100 palabras del diccionario, y el diccionario está completo.

¿Cómo utilizar el diccionario una vez creado? Aquí está la cosa. Primero, para 100 contenedores, inicialice el histograma H con un valor inicial de 0. ¿No hay muchos parches por imagen? Calcularemos la distancia entre estos parches y cada centroide nuevamente para ver a qué centroide está más cercano cada parche, luego agregaremos 1 al contenedor correspondiente en el histograma H y luego, después de calcular todos los parches de esta imagen, obtendremos un histograma con bin. = 100, luego normalízalo y usa el vector Vader de 100 para representar la imagen. Una vez calculadas todas las imágenes, podemos realizar clasificación, agrupación, entrenamiento y predicción, etc.