Desmentir 10 mitos sobre big data
Quizás una mejor metáfora es que Big Data es como un caballo campeón dinámico: con el entrenamiento adecuado y un buen jinete, un caballo puede Un caballo de carreras bien educado puede marcar carreras récords, pero sin entrenamiento y un jockey, este poderoso caballo ni siquiera llegará a la puerta de salida.
Para mantener encaminadas las iniciativas de big data de su organización, aquí presentamos 10 conceptos erróneos comunes que debe disipar.
1. Big data es "una gran cantidad de datos"
El núcleo de big data es describir cómo combinar datos estructurados o no estructurados con análisis de redes sociales, datos de Internet de las cosas y otras fuentes externas combinadas para contar una "historia más grande". ".Esta historia puede ser una descripción macro de las operaciones de la organización, o puede ser un panorama general que el análisis tradicional no puede capturar. Desde una perspectiva de recopilación de inteligencia, la escala de los datos que involucra es insignificante.
2. Panorama general Los datos deben estar muy limpios
En el mundo del análisis empresarial, no existe lo "demasiado rápido". Por el contrario, en el mundo de TI, no existe lo "basura". adentro, oro afuera". ¿Limpio? Una forma es ejecutar la aplicación de análisis para identificar áreas débiles en el conjunto de datos. Una vez resueltas estas áreas débiles, ejecute la aplicación de análisis nuevamente para resaltar las áreas "limpias".
3. Todos los analistas humanos serán reemplazados por algoritmos automáticos
En un artículo para TechRepublic, el ejecutivo de la industria Arijit Sengupta señaló que los gerentes comerciales de primera línea no siempre adoptan los consejos de los científicos de datos. implementar que los proyectos científicos, sin embargo, puede ser igualmente desafiante confiar demasiado en los algoritmos de aprendizaje automático, que le dicen qué hacer pero no por qué hacerlo, lo que dificulta la alineación del análisis de datos con la estrategia de la empresa con otras partes del proceso. planificación
Los algoritmos de predicción van desde algoritmos lineales relativamente simples hasta algoritmos más complejos basados en árboles y, finalmente, redes neuronales extremadamente complejas
4. p>Los repositorios gigantes que algunos administradores de TI imaginan para almacenar grandes cantidades de datos estructurados y no estructurados simplemente no existen, dice Jim Adler, científico de datos del Toyota Research Institute. Las organizaciones empresariales no almacenan todos los datos en una base de datos de forma indiscriminada. está "cuidadosamente planificado" y almacenado en bases de datos departamentales independientes para fomentar la "experiencia enfocada". La única manera de lograr la transparencia y la responsabilidad necesarias para el cumplimiento y otros requisitos de gestión
5. >
No hace mucho, se cerró el proyecto Google Flu Trends. Hay mucho entusiasmo en torno al proyecto, que afirma ser capaz de predecir dónde ocurrirán las epidemias de influenza con mayor rapidez y precisión que los Centros para el Control de Enfermedades y otros. servicios de información de salud, como escribe Michele Nijhuis de The New Yorker En un artículo del 3 de junio de 2017, se suponía que las búsquedas de palabras relacionadas con la gripe podrían predecir con precisión las áreas de próximos brotes. De hecho, simplemente mapear las temperaturas locales era una tarea más fácil. enfoque preciso. Métodos de predicción.
El algoritmo de predicción de la gripe de Google cayó en una trampa común de big data: produjo correlaciones sin sentido, como vincular los juegos de baloncesto de la escuela secundaria con los brotes de gripe, porque ambos ocurren en el invierno. Al extraer grandes cantidades de datos, es más probable encontrar relaciones entre información estadísticamente significativa que práctica, por ejemplo, vincular las tasas de divorcio en Maine con el consumo per cápita de margarina en los Estados Unidos: aunque no tiene ningún significado práctico. , de hecho existe una relación "estadística" entre estos dos números.
6. No se pueden ejecutar aplicaciones de big data en una infraestructura virtualizada
Cuando "big data" salió a la luz por primera vez hace unos 10 años, era sinónimo de Apache hadoop.
Como escribió Justin Murray de VMware en un artículo del 12 de mayo de 2017, el término big data ahora abarca una variedad de tecnologías desde NoSQL (MongoDB, Apache Cassandra) hasta Apache Spark.
Anteriormente, los críticos cuestionaron el rendimiento de Hadoop en máquinas virtuales. Pero Murray señala que el rendimiento de Hadoop en una máquina virtual es comparable al de una máquina física y utiliza los recursos del clúster de manera más eficiente.
Murray también criticó la idea errónea de que la funcionalidad básica de una máquina virtual requiere una red de área de almacenamiento (SAN). De hecho, los proveedores suelen recomendar el almacenamiento conectado directamente, que ofrece mejor rendimiento y menores costos.
7. El aprendizaje automático es sinónimo de inteligencia artificial
La brecha entre algoritmos que pueden identificar patrones en grandes cantidades de datos y métodos que pueden sacar conclusiones lógicas basadas en patrones de datos es más parecida. un abismo. Vineet Jain de ITProPortal escribió en un artículo del 26 de mayo de 2017: "El aprendizaje automático utiliza explicaciones estadísticas para generar modelos predictivos. Esta es la tecnología detrás de los algoritmos que predicen lo que una persona probablemente hará en función de su comportamiento de compra anterior. ¿Qué comprará? ¿O predecir qué música le gustará en función de su historial de escucha?
Si bien estos algoritmos son inteligentes, están muy por debajo del objetivo de la inteligencia artificial, que es replicar el proceso de toma de decisiones humanas. El razonamiento, el juicio y la imaginación humanos. En este sentido, el aprendizaje automático puede verse como un preludio necesario para la verdadera inteligencia artificial. Incluso los sistemas de inteligencia artificial más avanzados hasta la fecha, como IBM Watson, no pueden proporcionar conocimientos sobre big data. que los científicos pueden proporcionar
8. La mayoría de los proyectos de big data logran al menos la mitad de sus objetivos
Los gerentes de TI saben que ningún proyecto de análisis de datos es 100% exitoso. Como se muestra, las tasas de éxito caen drásticamente cuando estos proyectos involucran big data. En los últimos cinco años, el 95% de los líderes empresariales informaron que sus empresas participaron en proyectos de big data, pero solo el 48,4 de esos proyectos lograron "resultados mensurables". >
La encuesta ejecutiva de Big Data de NewVantage Partners muestra que menos de la mitad de los proyectos de big data logran sus objetivos y el cambio de "cultura" es la clave.
De hecho, según. Según un informe de investigación publicado por Gartner en octubre de 2016, una encuesta de Gartner encontró que solo 15 proyectos de implementación de big data superan la etapa piloto y se implementan en producción, relativamente estable en comparación con la tasa de éxito de 14 en la encuesta del año pasado.
9. El crecimiento del big data reducirá la necesidad de ingenieros de datos
Si su empresa es grande, si el objetivo de las iniciativas de datos es minimizar la necesidad de científicos de datos, es posible que se encuentre con una situación desagradable. Sorpresa: La Guía de Salarios de Tecnología de Robert Half de 2017 establece que el salario anual promedio de los ingenieros de datos salta de $130,000 a $196,000. El salario anual promedio de los científicos de datos actualmente oscila entre $116,000 y $163,000, y el de los analistas de inteligencia de negocios actualmente oscila entre los EE.UU. Entre 118.000 y 138.750 dólares.
10. Los empleados y gerentes de primera línea adoptarán el big data con los brazos abiertos.
Una encuesta realizada por NewVantagePartners muestra que el 85,5 % de las empresas están comprometidas con la creación de una plataforma de datos. Sin embargo, la tasa general de éxito de las nuevas iniciativas de datos es sólo del 37,1%. Las tres barreras citadas con más frecuencia por estas empresas fueron la falta de alineación organizacional (42,6), la falta de adopción y comprensión por parte de los mandos intermedios (41) y resistencia empresarial o falta de comprensión (41).
El futuro puede pertenecer al big data, pero para beneficiarse de esta tecnología, se requiere mucho trabajo duro por parte de diferentes naturalezas humanas.