Práctica de anotación de datos: descripción general de la anotación de datos
Práctica de anotación de datos: descripción general de la anotación de datos.
Una breve historia del desarrollo de la anotación de datos
El desarrollo de la industria de la anotación de datos
1. Historia del desarrollo de la inteligencia artificial
El concepto de inteligencia artificial está arriba. Fue propuesto formalmente en las décadas de 1950 y 1960.
La prueba de Turing
El concepto de "inteligencia artificial (IA)" se propuso por primera vez en la Conferencia de Dartmouth en 1956 y se conoce como el "punto de partida de la inteligencia artificial". El desarrollo de la inteligencia artificial ha pasado por altibajos, desde la teoría hasta la práctica, desde los malos resultados iniciales en entornos de aplicaciones de la vida real, hasta el proceso de lograr mejoras significativas en las capacidades de almacenamiento y computación a través de avances tecnológicos.
2. El origen de la anotación de datos
En 2007, el profesor Li Feifei de la Universidad de Stanford y otros comenzaron a lanzar el proyecto ImageNet.
El concepto de anotación de datos: la anotación es el proceso de procesar datos primarios no procesados, incluidos voz, imágenes, texto, videos, etc., y convertirlos en información reconocible por máquina.
3. La relación entre algoritmos de inteligencia artificial y anotación de datos
Inteligencia artificial fuerte versus inteligencia artificial débil.
El aprendizaje profundo es actualmente un campo de investigación importante en inteligencia artificial. Hay cuatro métodos principales: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semisupervisado y aprendizaje reforzado. El aprendizaje supervisado es el foco actual de la investigación en inteligencia artificial. .
El estado de desarrollo de la industria nacional de anotación de datos
La industria de anotación de datos se ha desarrollado rápidamente en los últimos años y los requisitos son cada vez mayores.
1. Lado del mercado
Se espera que el tamaño del mercado supere los 10 mil millones de yuanes en 2025 y la demanda de datos anotados será mayor. La industria es muy prometedora. La relación entre los algoritmos de inteligencia artificial y la anotación de datos. Actualmente, las cinco ciudades con mayor demanda de anotación de datos son: Beijing, Chengdu, Hangzhou, Shanghai y Shenzhen.
2. El lado del proveedor
se divide en tres categorías: proveedores de datos de plataforma, proveedores de datos pequeños y medianos y equipos autoconstruidos del lado de la demanda. Desde la perspectiva del desarrollo de proveedores, la industria se encuentra en una etapa de "barajada".
Qué es la anotación de datos
La anotación de datos (Data Annotation) es la clasificación, organización, edición, corrección de errores, marcado y anotación de texto, imagen, voz, video y otros datos anotados. Las operaciones de procesamiento incluyen agregar etiquetas a los datos que se etiquetarán y generar una codificación de datos legible por máquina que cumpla con los requisitos de capacitación en aprendizaje automático.
Etiqueta
Tarea de anotación
Etiquetadora de datos
Herramienta de anotación)
Características del trabajo de anotación de datos p>
Las características del trabajo de anotación de datos están determinadas por las características del proyecto de anotación de datos y deben ajustarse continuamente de acuerdo con el efecto.
Se requieren las siguientes habilidades: capacidad de aprendizaje transferible, capacidad de marcar repetidamente, capacidad de concentración cuidadosa y capacidad de resumir y refinar.
Definición y clasificación del etiquetado de datos
El proceso básico del etiquetado de datos
Incluye 4 enlaces:
Recopilación de datos: enlace principal, fuente Para empresas de inteligencia artificial que presentan requisitos de etiquetado. Los conjuntos de datos públicos y los conjuntos de datos profesionales suelen obtenerse a través de Internet.
Limpieza de datos: un paso importante es filtrar los datos, eliminar duplicados, verificar si hay valores atípicos y faltantes en el conjunto de datos y suavizar los datos ruidosos para corregir las inconsistencias de los datos al máximo. y lo incompleto.
Anotación de datos: el anotador es responsable de anotar los datos, lo que se puede realizar mediante anotación de clasificación, anotación de cuadro, anotación de área, anotación de puntos u otros métodos de anotación.
Inspección de calidad de datos: enlace clave, métodos de control de calidad comunes: verificación de varias personas, verificación de preguntas ocultas, verificación del estado del personal de anotaciones, verificación de máquina.
Clasificación de la anotación de datos
A menudo se clasifica según el tipo de datos que se van a etiquetar:
Anotación de texto: se utiliza principalmente para el procesamiento del lenguaje natural (PLN) , tales como: industria de servicio al cliente, industria financiera, industria médica, etc. Sus métodos de etiquetado incluyen: etiquetado de segmentación de palabras, etiquetado de partes del discurso, etiquetado de emociones, reconocimiento de intenciones, etiquetado de entidades, etc.
Anotación de audio: se utiliza principalmente para el reconocimiento de voz (reconocimiento automático de voz, ASR) y la síntesis de voz (texto a voz, la tecnología ASR convierte principalmente sonidos en texto, mientras que la tecnología TTS convierte principalmente texto en texto). sonido. Actualmente, los escenarios de aplicación más comunes incluyen servicio al cliente inteligente, robots telefónicos, Siri en teléfonos Apple, etc. Los métodos de anotación de audio incluyen la transcripción de voz, la anotación de emociones del habla, etc.
Anotación de imágenes: proporciona principalmente conjuntos de datos para algoritmos relacionados con la visión por computadora. Se utiliza en escenarios diarios como el reconocimiento facial, la conducción autónoma, el reconocimiento de matrículas y el reconocimiento de imágenes médicas actualmente populares. anotación. Los métodos de anotación incluyen anotación de cuadros rectangulares, dibujo de cuadros poligonales, puntos, reconocimiento OCR, segmentación semántica, revisión y clasificación de imágenes, etc.
Anotación de vídeo: realiza principalmente anotaciones de imágenes después de tomar fotogramas del vídeo y luego realiza entrenamiento de síntesis. Por ejemplo: video de vigilancia, conducción autónoma, transporte inteligente, etc., el método de anotación es básicamente el mismo que el de la imagen.
Campos de aplicación de la anotación de datos
Intente comprender los escenarios de aplicación de los datos anotados, lo cual es de gran importancia para la calidad de la anotación.
Campo de viaje: los métodos de anotación comunes incluyen: anotación de puntos, anotación de líneas, anotación de cuadro, anotación de nube de puntos 3D, segmentación semántica de escenas, anotación de PoI (punto de interés), etc.
Ámbito seguridad: Existen muchos niveles de gobierno. La anotación de rostros, la segmentación de video, la recopilación de voz, la anotación de peatones, etc. son aplicaciones importantes de anotación de datos.
Ámbito financiero: se utilizarán ampliamente la traducción de textos, el análisis semántico, la transcripción semántica, la anotación de imágenes, etc.
En el campo del comercio electrónico: es importante poder profundizar en conjuntos de datos y mejorar la búsqueda de contenido específico a través de búsquedas en Internet, juicio emocional, juicio de intención, corrección de errores y recopilación de idiomas. y anotación a través de oraciones.
Áreas de servicio público ***: revisión de contenido para comprobar si el contenido cumple con los requisitos, análisis semántico para clasificar oraciones con el mismo significado, reconocimiento de intención, transcripción de voz, así como revisión de video, revisión de texto, etc. Es un campo de aplicación común de la anotación de datos.
El modelo operativo de la industria de la anotación de datos
Características de la anotación de datos
El contenido de la anotación tiene la granularidad más pequeña, la cantidad de anotaciones del proyecto es grande y la iteración de los requisitos de anotación es rápida.
El papel de la anotación de datos en la inteligencia artificial
La anotación de datos proporciona a las empresas de inteligencia artificial una gran cantidad de conjuntos de datos estructurados etiquetados para el entrenamiento y el aprendizaje automático, asegurando que el algoritmo La efectividad de el modelo. La precisión de la anotación de datos determina la efectividad de la inteligencia artificial. Por lo tanto, en esta etapa, la anotación de datos todavía juega un papel muy importante en la inteligencia artificial y seguirá siendo muy importante en el futuro.
Modo de operación de anotación de datos
Puede consultar la gestión de proyectos PM.
Tendencias de desarrollo futuras y desafíos de la industria de la anotación de datos
Los productos de conjuntos de datos con visión de futuro y los servicios de datos altamente personalizados se convertirán en la corriente principal del desarrollo de la industria de la anotación de datos.
La tendencia de desarrollo de intensificar la competencia en la industria de anotación de datos
Ahora ha entrado en un período de rápido crecimiento desde una perspectiva micro: la escala del mercado continúa expandiéndose y la competencia del mercado se intensifica. , y la industria puede estar enfrentando un "período de mezcla" desde una perspectiva macro: los demandantes prefieren cada vez más los conjuntos de datos de alta calidad, refinados y personalizados.
Fuerte apoyo de las políticas
El Ministerio de Industria y Tecnologías de la Información emitió el “Plan de Acción Trienal para Impulsar el Desarrollo de la Industria de la Inteligencia Artificial de Nueva Generación (2018-2020) ".
En febrero de 2020, "entrenador de inteligencia artificial" se convirtió oficialmente en una nueva profesión perteneciente a la subcategoría de personal de servicios de software y tecnologías de la información.
Problemas y desafíos enfrentados
Desafío 1: Es más difícil etiquetar los requisitos y la integración de la industria no es lo suficientemente profunda.
Desafío 2: La investigación y el desarrollo de herramientas de anotación semiautomáticas y plataformas de gestión son insuficientes, centrándose en dos puntos clave: cómo mejorar la eficiencia de la anotación y cómo gestionar bien los proyectos.
Desafío 3: La calidad de la anotación de datos no está adecuadamente controlada. Ahora ha entrado en un período de rápido crecimiento.
Desafío 4: La protección de la seguridad y la privacidad de los datos no es optimista. Actualmente, se han producido tecnologías como la gobernanza de datos, la segmentación de datos, la transmisión segura de datos y blockchain.
Las perspectivas y el desarrollo de la industria de la anotación de datos
La industria de la anotación de datos tiene amplias perspectivas, pero también enfrenta muchos desafíos.
Solo mejorando continuamente su propia fortaleza técnica, iterando rápidamente su propio negocio para adaptarse a los cambios en la demanda y creando un doble efecto boca a boca de marca y fortaleza podrá obtener más ventajas en el feroz competencia en el mercado y establecer barreras técnicas altamente excluyentes, asegurando así permanecer invencibles en la competencia.