Cómo extraer datos en la era del big data
En la tarde del 13 de marzo, Li Tao, profesor y decano de la Facultad de Ciencias de la Computación y la Escuela de Software de la Universidad de Correos y Telecomunicaciones de Nanjing, dio una conferencia en profundidad sobre el tema titulado "Datos Minería en la era del Big Data" en la columna de microconferencias de la aplicación CIO Times. Explica big data y minería de datos en la era del big data.
Como todos sabemos, la minería de big data en la era del big data se ha convertido en un tema candente en todos los ámbitos de la vida.
1. Minería de datos
En la era del big data, la generación y recopilación de datos son la base, y se puede decir que la minería de datos es la clave. Trabajo más crítico y básico de big data. En términos generales, la minería de datos también se llama DataMining, o Descubrimiento de Conocimiento a partir de Datos, que generalmente se refiere a un proceso de ingeniería y sistemático de extracción de información y patrones ocultos, previamente desconocidos pero potencialmente útiles, a partir de una gran cantidad de datos.
Diferentes académicos tienen diferentes comprensiones de la minería de datos, pero personalmente creo que las características de la minería de datos incluyen principalmente los siguientes cuatro aspectos:
1. ): La minería de datos es una combinación perfecta de algoritmos teóricos y práctica de aplicación. La minería de datos se origina en las necesidades de las aplicaciones en la producción y la vida reales. Al mismo tiempo, el conocimiento descubierto a través de la minería de datos debe aplicarse en la práctica para ayudar en la toma de decisiones reales. Por lo tanto, la minería de datos proviene de la práctica de aplicaciones y también sirve a la práctica de aplicaciones. Los datos son fundamentales y la minería de datos debe estar orientada a los datos, el diseño y el desarrollo de algoritmos deben tener en cuenta las necesidades de las aplicaciones prácticas y la generalización y la resolución de problemas. Buenos algoritmos para practicar y probarlos en la práctica.
2. Proceso de ingeniería: La minería de datos es un proceso de ingeniería que consta de múltiples pasos. Las características de la aplicación de la minería de datos determinan que la minería de datos no es solo el análisis y la aplicación de algoritmos, sino un proceso completo que incluye la preparación y gestión de datos, el preprocesamiento y la conversión de datos, el desarrollo y la aplicación de algoritmos de minería, la visualización y verificación de resultados, y la acumulación y uso de conocimientos. . Además, en aplicaciones prácticas, el proceso típico de minería de datos sigue siendo un proceso interactivo y cíclico.
3. Una colección de funcionalidades: la minería de datos es una colección de múltiples funciones. Las funciones de minería de datos comúnmente utilizadas incluyen análisis de exploración de datos, minería de reglas de asociación, minería de patrones de series temporales, predicción de clasificación, análisis de conglomerados, detección de anomalías, visualización de datos y análisis de enlaces, etc. Un caso de aplicación específico a menudo implica múltiples funciones diferentes. Las diferentes funciones suelen tener diferentes fundamentos teóricos y técnicos, y cada función está respaldada por diferentes algoritmos.
4. Un campo interdisciplinario: la minería de datos es un campo interdisciplinario que utiliza conocimientos de muchos campos diferentes, como análisis estadístico, reconocimiento de patrones, aprendizaje automático, inteligencia artificial, recuperación de información y bases de datos académicas. ideas. Al mismo tiempo, otros campos como los algoritmos aleatorios, la teoría de la información, la visualización, la computación distribuida y la optimización también desempeñan un papel importante en el desarrollo de la minería de datos. La diferencia entre la minería de datos y estos campos relacionados se puede resumir en las tres características de la minería de datos mencionadas anteriormente. Lo más importante es que está más centrado en la aplicación.
En resumen, la aplicabilidad es una característica importante de la minería de datos y es la clave para distinguirla de otras disciplinas. Al mismo tiempo, sus características de aplicación complementan otras características, y estas características determinan la calidad de los datos. Hasta cierto punto, la investigación y el desarrollo de la minería de datos también proporcionan orientación sobre cómo aprender y dominar la minería de datos. Desde la perspectiva de la investigación y el desarrollo, la demanda de aplicaciones prácticas es la raíz de la propuesta y desarrollo de muchos métodos en el campo de la minería de datos.
Desde el análisis inicial de datos de transacciones del cliente (análisis de la cesta de la compra), la minería de datos multimedia (minería de datos multimedia), la minería de datos que preserva la privacidad (minería de datos que preserva la privacidad) hasta la minería de datos de texto (minería de texto) y la minería web (minería web), Luego, la minería de redes sociales (minería de redes sociales) está impulsada por aplicaciones. La ingeniería y la naturaleza colectiva determinan la amplitud del contenido y la dirección de la investigación de minería de datos. Entre ellos, la ingeniería hace que diferentes pasos de todo el proceso de investigación entren en el alcance de la investigación de minería de datos. La agregación hace que la minería de datos tenga muchas funciones diferentes, y la forma de conectar y combinar múltiples funciones afecta el desarrollo de los métodos de investigación de minería de datos hasta cierto punto. Por ejemplo, a mediados de la década de 1990, la investigación de minería de datos se centró principalmente en la extracción de reglas de asociación y patrones de series temporales. A finales de la década de 1990, los investigadores comenzaron a estudiar algoritmos de clasificación basados en reglas de asociación y patrones de series de tiempo (como la clasificación basada en asociación), combinando orgánicamente dos funciones diferentes de minería de datos. A principios del siglo XXI, un tema de investigación candente fue el aprendizaje semisupervisado y la agrupación semisupervisada, que también combinan orgánicamente las dos funciones de clasificación y agrupación. Algunas otras direcciones de investigación en los últimos años, como la agrupación subespacial (la combinación de extracción de características y agrupación) y la clasificación de gráficos (la combinación de minería y clasificación de gráficos), también conectan y combinan múltiples funciones. Finalmente, la interseccionalidad conduce a una diversidad de ideas de investigación y diseños metodológicos.
Lo que se mencionó anteriormente es el impacto de las características de la minería de datos en el desarrollo de la investigación y los métodos de investigación. Además, estas características de la minería de datos brindan opiniones orientativas sobre cómo aprender y dominar la minería de datos, y son útiles. Para la capacitación, los estudiantes de posgrado y los estudiantes de pregrado tienen alguna orientación, como la aplicabilidad. Al guiar la minería de datos, deben estar familiarizados con el negocio y las necesidades de la aplicación. El propósito de la minería de datos es la estrecha integración. La tecnología es muy importante. Solo comprendiendo el negocio y captando las necesidades se pueden analizar los datos de manera específica y aprovechar su valor. Por lo tanto, lo que se necesita en aplicaciones prácticas es un talento que comprenda los algoritmos tanto comerciales como de minería de datos. La ingeniería determina que dominar la minería de datos requiere ciertas capacidades de ingeniería. Un buen minero de datos es, ante todo, un ingeniero y tiene una gran capacidad para procesar datos a gran escala y desarrollar sistemas prototipo. Las habilidades de ingeniería, procesamiento de datos y programación son muy importantes. La naturaleza colectiva hace necesario acumular diferentes funciones subyacentes y múltiples algoritmos cuando se aplica específicamente la minería de datos. La interseccionalidad determina que al aprender minería de datos, se deben comprender y aprender activamente ideas y tecnologías en campos relacionados.
Por lo tanto, todas estas características son características de la minería de datos y se pueden resumir y aprender a través de estas cuatro características.
2. Características del big data
El término big data se utiliza a menudo para describir y referirse a las cantidades masivas de información generadas en la era de la explosión informativa. La importancia de estudiar big data es descubrir y comprender el contenido de la información y la conexión entre información e información. Para estudiar big data, primero debemos aclarar y comprender las características y conceptos básicos de big data, y luego comprender y comprender big data.
Para estudiar big data, primero hay que entender las características y conceptos básicos del big data. La industria generalmente cree que big data tiene características estándar de "4V":
1. Volumen: el volumen de datos es enorme, saltando del nivel de TB al nivel de PB.
2. Variedad: Hay muchos tipos de datos, como registros web, vídeos, imágenes, información de ubicación geográfica, etc.
3. Velocidad (alta velocidad): velocidad de procesamiento rápida y análisis en tiempo real, que es fundamentalmente diferente de la tecnología tradicional de minería de datos.
4. Valor: la baja densidad de valor y el alto valor efectivo. El uso razonable de datos de valor de baja densidad y el análisis correcto y preciso aportarán un enorme valor comercial y social.
Las características "4V" anteriores describen las principales diferencias entre big data y los "pequeños datos" parcialmente muestreados anteriormente. Sin embargo, la práctica es la única manera de aprovechar el valor máximo de los big data. Desde la perspectiva de las aplicaciones prácticas y la complejidad del procesamiento de big data, big data también tiene las siguientes nuevas características "4V":
5. Variabilidad: la variabilidad de los datos en diferentes escenarios y diferentes objetivos de investigación. y el significado puede cambiar, por lo que se debe considerar el contexto específico en la investigación real.
6. Veracidad: Obtener datos reales y fiables es el requisito previo para garantizar que los resultados de los análisis sean precisos y eficaces. Sólo datos reales y precisos pueden lograr resultados verdaderamente significativos.
7.Volatilidad/Varianza: debido a que los datos en sí contienen ruido y el proceso de análisis es irregular, el uso de diferentes algoritmos o diferentes procesos y métodos de análisis conducirá a resultados de análisis inestables.
8.Visualización: en un entorno de big data, la visualización de datos puede explicar el significado de los datos de manera más intuitiva, ayudar a comprenderlos y explicar los resultados.
En resumen, las características de "8V" anteriores tienen una gran importancia rectora en el análisis y la minería de datos de big data.
3. Minería de datos en la era del big data
En la era del big data, la minería de datos debe considerar las siguientes cuatro cuestiones:
El núcleo y La esencia es la combinación orgánica de los cuatro elementos de aplicación, algoritmo, datos y plataforma.
Debido a que la minería de datos está impulsada por las aplicaciones y proviene de la práctica, se generan datos masivos en las aplicaciones. Debe estar impulsado por datos de aplicaciones específicas y respaldado por algoritmos, herramientas y plataformas, y finalmente aplicar el conocimiento y la información descubiertos en la práctica, proporcionando así información cuantitativa, razonable y factible que pueda generar un valor enorme.
La extracción de información útil oculta en big data requiere el diseño y desarrollo de los correspondientes algoritmos de aprendizaje y extracción de datos. El diseño y desarrollo de algoritmos debe basarse en datos de aplicaciones específicos y, al mismo tiempo, aplicarse y verificarse en problemas reales. La implementación y aplicación de algoritmos requieren una plataforma de procesamiento eficiente que pueda resolver el problema de la volatilidad. Una plataforma de procesamiento eficiente necesita analizar datos masivos de manera efectiva, integrar datos multidimensionales de manera oportuna y, al mismo tiempo, respaldar firmemente la ejecución de algoritmos digitales y visualización de datos, y estandarizar el proceso de análisis de datos.
En resumen, la idea de combinar los cuatro aspectos de aplicación, algoritmo, datos y plataforma es un refinamiento integral de la comprensión y la comprensión de la minería de datos en la era del big data y encarna la esencia. y comprensión de la minería de datos en la era del big data. Estos cuatro aspectos son también la integración y la arquitectura de los aspectos de investigación correspondientes. Estas cuatro arquitecturas se desarrollan específicamente a partir de los siguientes cuatro niveles:
Capa de aplicación (Aplicación): se ocupa de la recopilación de datos y la verificación del algoritmo, la clave. El problema es comprender la semántica y el conocimiento del dominio relevante para la aplicación.
Capa de datos (Data): gestión, almacenamiento, acceso y seguridad de los datos, preocupada por cómo utilizar los datos de manera eficiente.
Algoritmo: principalmente el diseño e implementación de algoritmos como minería de datos, aprendizaje automático y algoritmos aproximados.
Capa de plataforma (Infraestructura): acceso y cálculo de datos, la plataforma informática procesa datos distribuidos a gran escala.
En resumen, los algoritmos de minería de datos se dividen en múltiples niveles y hay diferentes contenidos de investigación en diferentes niveles. Podemos ver las principales direcciones de investigación en la minería de datos actual, como el uso de preprocesos de tecnología de fusión de datos escasos. datos heterogéneos, inciertos, incompletos y de múltiples fuentes; extrae datos complejos y que cambian dinámicamente; prueba el conocimiento global obtenido a través del aprendizaje local y la fusión de modelos, y retroalimenta información relevante a la etapa de preprocesamiento paralelizar los datos Distribuido para lograr un uso efectivo;
4. Desarrollo del sistema de minería de big data
1. Objetivos previos
El advenimiento de la era del big data ha provocado una explosión en la escala y la complejidad de El crecimiento de los datos ha impulsado a los analistas de datos en diferentes campos de aplicación a utilizar tecnología de minería de datos para analizar los datos. En campos de aplicación, como atención médica, manufactura de alta gama, finanzas, etc., una tarea típica de minería de datos a menudo requiere una configuración compleja de subtareas, la integración de múltiples tipos diferentes de algoritmos de minería y una operación eficiente en un entorno informático distribuido. Por lo tanto, una tarea urgente para las aplicaciones de minería de datos en la era del big data es desarrollar y establecer plataformas y herramientas informáticas para ayudar a los analistas de datos en el campo de las aplicaciones a realizar tareas de análisis de datos de manera efectiva.
Como se mencionó anteriormente, una minería de datos tiene múltiples tareas, múltiples funciones y diferentes algoritmos de minería, al mismo tiempo que requiere una plataforma eficiente. Por lo tanto, la principal prioridad para la extracción y aplicación de datos en la era del big data es desarrollar y establecer plataformas y herramientas informáticas para ayudar a los analistas de datos en el campo de las aplicaciones a realizar tareas de análisis de datos de manera efectiva.
2. Productos relacionados
Herramientas de minería de datos existentes
Existen Weka, SPSS y SQLServer, que proporcionan interfaces amigables para facilitar el análisis de los usuarios. Las herramientas no son adecuadas para el análisis de datos a gran escala y es difícil para los usuarios agregar nuevos programas de algoritmos cuando utilizan estas herramientas.
Bibliotecas de algoritmos de minería de datos populares
Como Mahout, MLC y MILK. Estas bibliotecas de algoritmos proporcionan una gran cantidad de algoritmos de minería de datos. Pero estas bibliotecas de algoritmos requieren habilidades de programación avanzadas para la configuración de tareas y la integración de algoritmos.
Recientemente han surgido algunos productos integrados de minería de datos
como Radoop y BC-PDM, que proporcionan interfaces de usuario amigables para configurar rápidamente las tareas de minería de datos. Sin embargo, estos productos se basan en el marco Hadoop y tienen un soporte muy limitado para programas de algoritmos que no son Hadoop. La asignación de recursos en situaciones multiusuario y multitarea no se aborda explícitamente.
3.FIU-Miner
Para resolver las limitaciones de las herramientas y productos existentes en la minería de big data, nuestro equipo desarrolló una nueva plataforma: FIU-Miner, que representa un rápido Sistema completo, integrado y fácil de usar para minería de datos en un entorno distribuido. Es un sistema de minería de datos fácil de usar y que admite una informática eficiente y una rápida integración en un entorno distribuido. En comparación con las plataformas de minería de datos existentes, FIU-Miner proporciona un nuevo conjunto de funciones que pueden ayudar a los analistas de datos a realizar diversas tareas complejas de minería de datos de manera conveniente y efectiva.
En comparación con las plataformas tradicionales de minería de datos, proporciona algunas funciones nuevas, principalmente en los siguientes aspectos:
A. Configuración de tareas de minería de datos fácil de usar, humana y rápida. Basado en el modelo de "software como servicio", FIU-Miner oculta detalles básicos irrelevantes para las tareas de análisis de datos. A través de la interfaz de usuario humanizada proporcionada por FIU-Miner, los usuarios pueden completar fácilmente la configuración de tareas de un problema complejo de minería de datos ensamblando directamente algoritmos existentes en flujos de trabajo sin escribir ningún código.
B. Integración flexible de programas en varios idiomas. Permite a los usuarios importar directamente los algoritmos de minería de datos más avanzados a la biblioteca de algoritmos del sistema para ampliar y administrar la colección de herramientas de análisis. Al mismo tiempo, debido a que FIU-Miner puede asignar correctamente tareas a nodos informáticos con entornos de ejecución adecuados, no existen restricciones de idioma de implementación para estos algoritmos importados.
C. Gestión eficaz de recursos en entornos heterogéneos. FIU-Miner admite la ejecución de tareas de minería de datos en entornos informáticos heterogéneos (incluidas estaciones de trabajo gráficas, computadoras individuales, servidores, etc.). FIU-Miner tiene en cuenta varios factores (incluida la implementación de algoritmos, el equilibrio de carga del servidor y la ubicación de los datos) para optimizar la utilización de los recursos informáticos.
D. Programación y ejecución efectiva del programa.
La arquitectura de la aplicación incluye la capa de interfaz de usuario, la capa de gestión de tareas y sistemas, la capa de recursos lógicos y la capa de recursos físicos heterogéneos. Esta arquitectura en capas considera completamente el almacenamiento distribuido de datos masivos, la integración de diferentes algoritmos de minería de datos, la configuración de múltiples tareas y las funciones de entrega de los usuarios del sistema. Una tarea típica de minería de datos requiere una configuración compleja de la tarea principal en la aplicación, integrando múltiples tipos diferentes de algoritmos de minería. Por lo tanto, desarrollar y establecer plataformas y herramientas informáticas para ayudar a los analistas de datos en los campos de aplicación a realizar análisis eficaces es una tarea importante en la minería de big data.
El sistema FIU-Miner se utiliza en diferentes aspectos: como fabricación de alta gama, gestión inteligente de almacenes, procesamiento de datos espaciales, etc. TerraFly GeoCloud se basa en el sistema TerraFly y admite una variedad de aplicaciones espaciales en línea. análisis de datos Una plataforma. Se proporciona MapQL, un lenguaje de minería y consulta de datos espaciales similar a SQL. No solo admite declaraciones similares a SQL, sino que, lo que es más importante, puede realizar consultas de extracción, representación y dibujo de datos espaciales para obtener datos espaciales de acuerdo con los diferentes requisitos de los usuarios. Optimice el proceso de análisis y mejore la eficiencia del análisis mediante la creación de un flujo de trabajo para el análisis de datos espaciales.
La fabricación se refiere al proceso de producción industrial de procesamiento de materias primas en productos terminados a gran escala. La fabricación de alta gama se refiere a una nueva industria con alto contenido tecnológico, alto valor agregado y fuerte competitividad en la industria manufacturera. Las industrias manufactureras típicas de alta gama incluyen la producción de semiconductores electrónicos, la fabricación de instrumentos de precisión, productos biofarmacéuticos, etc. Estas áreas de fabricación a menudo implican un diseño de ingeniería riguroso, líneas de producción de ensamblaje complejas, una gran cantidad de equipos de procesamiento y parámetros de proceso controlados, un control preciso del proceso y especificaciones estrictas de materiales. El rendimiento y la calidad dependen en gran medida del control de procesos y de las decisiones de optimización. Por lo tanto, las empresas manufactureras no escatiman esfuerzos para utilizar diversas medidas para optimizar los procesos de producción, ajustar los parámetros de control y mejorar la calidad y la producción del producto, mejorando así su competitividad.
En términos de procesamiento de datos espaciales, TerraFly GeoCloud analiza una variedad de datos espaciales en línea. Para el análisis de datos tradicional, la dificultad es que las declaraciones MapQL son difíciles de escribir, la relación entre tareas es compleja y la eficiencia de partición de datos espaciales entre ejecuciones secuenciales es baja. FIU-Miner puede resolver eficazmente las tres dificultades anteriores.
En resumen, las características complejas del big data plantean nuevos requisitos y desafíos para la teoría de la minería de datos y la investigación de algoritmos. Big data es un fenómeno y su núcleo es extraer la información potencial contenida en los datos y hacerla valiosa. La minería de datos es una combinación perfecta de técnicas teóricas y aplicaciones prácticas. La minería de datos es un ejemplo de combinación de teoría y práctica.