Las tendencias en gestión y análisis de datos están cambiando el mundo
Las tendencias en gestión y análisis de datos están cambiando el mundo
¿Qué está sucediendo en el mundo de los datos ahora y cómo afectará al mercado en 2018? Titulares como estos: ¿La Inteligencia Artificial es? En todas partes, y lo cambiará todo; las empresas seguirán trasladando su infraestructura y sus datos a la nube; el RGPD hará que la protección de datos sea una máxima prioridad para todas las empresas. Usted lo sabe, pero puede que sea un poco escéptico ante tal hipérbole.
Entonces, ¿qué cambios sustanciales se han producido? ¿A qué hay que prestar atención al desarrollar estrategias de arquitectura y adquisiciones y tomar decisiones en estas áreas? A continuación, analizamos 7 impactos profundos en el campo de la analítica y los presentamos. uno por uno.
Hadoop es siempre la base
Sí, la tasa de fracaso de esos proyectos de big data es muy alta y Spark ha reemplazado a Hadoop hasta cierto punto, y cada vez más clientes están comenzando a hacerlo; Ejecútelo de forma independiente, por lo que la industria comenzó a culpar a Hadoop... y dejó de mencionarlo por su nombre. Entonces crees que Hadoop debe estar obsoleto, ¿verdad?
¡Mal! Todo el mundo habla de lagos de datos hoy en día y, muchas veces, eso es solo código de Hadoop. Y, si bien muchas empresas están implementando sus lagos de datos en el almacenamiento en la nube, a menudo utilizan la tecnología del ecosistema Hadoop para analizar estos datos. Además, cuando comience a utilizar el almacenamiento en la nube para simular sistemas de archivos HDFS y Hadoop, se dará cuenta de que no existe una diferencia esencial entre los lagos de datos en la nube y los lagos de datos de Hadoop.
La buena noticia es que este año Hadoop hará lo que siempre se suponía que debía hacer: ser aceptado silenciosamente por muchas empresas y convertirse en una de las muchas herramientas de datos para desempeñar su papel estratégico. Es la combinación de estas tecnologías de datos, incluidas Hadoop, Spark, Business Intelligence (BI) y almacenamiento de datos, lo que hace que el mercado analítico actual sea tan apasionante.
¡Adiós! Pila de inteligencia empresarial a nivel empresarial
A principios de este año, MicroStrategy, una empresa de inteligencia empresarial a nivel empresarial, anunció que haría concesiones a sus competidores front-end e introduciría sus productos. MicroStrategy cree que puede ganar dinero aprovechando su plataforma OLAP de back-end y el procesamiento de datos asociado. La empresa parece darse cuenta de que competir en visualización de datos y paneles de control es difícil, e incluso si puede tener éxito, generará rendimientos decrecientes.
Entonces, ¿es suficiente el back-end para mantener los ingresos del negocio y seguir creciendo? Ya veremos. Pero una cosa es segura: la pila única de inteligencia empresarial a nivel empresarial ha comenzado a desintegrarse y están a punto de comenzar nuevos desafíos.
Nivel de datos
Quizás esté familiarizado con el concepto de nivel de datos, como la correlación entre el almacenamiento de datos y su frecuencia de acceso. Las solicitudes de acceso a datos "calientes", es decir, los datos más utilizados, a veces se dirigen a almacenamientos muy rápidos, como SSD o incluso cachés de CPU, mientras que los datos más fríos suelen almacenarse en discos duros giratorios más antiguos, pero más baratos.
A medida que la jerarquía de almacenamiento mejore, veremos que otras jerarquías se reconocen gradualmente este año. Por ejemplo, los análisis abarcan desde conjuntos de datos experimentales relevantes para un equipo o unidad de negocios específicos hasta datos altamente estructurados, auditados y basados en conocimientos que son útiles en toda la empresa. En el medio hay conjuntos de datos estructurados que pueden considerarse ligeramente por debajo del nivel de producción debido a su tamaño o limpieza.
Los conjuntos de datos experimentales se almacenan mejor en un lago de datos; lógicamente, los conjuntos de datos altamente examinados se almacenan mejor en un almacén de datos. Los conjuntos de datos intermedios pueden ubicarse mejor en Hadoop o en el almacenamiento en la nube, pero a menudo se consultan desde bases de datos relacionales utilizando herramientas SQL-on-Hadoop como IBM Big SQL, Microsoft PolyBase y Oracle Big Data SQL.
Otra jerarquía podría estratificar los datos en función de si se utilizan para diseñar modelos de aprendizaje automático o simplemente para análisis, y otras jerarquías podrían definirse según la confiabilidad de la fuente de datos.
La razón por la que la jerarquía es importante es que las herramientas y tecnologías correspondientes también lo son, incluidas herramientas de inteligencia empresarial y análisis de big data en el lado de las consultas, así como bases de datos transaccionales, bases de datos NoSQL, almacenes de datos y datos en el lado del repositorio.
Si bien eventualmente las jerarquías pueden simplificarse y las tecnologías pueden converger, con tantas opciones tecnológicas disponibles ahora, necesitamos jerarquías en nuestros datos para dictar nuestras mejores prácticas en la implementación de cadenas de herramientas.
Productos de visualización
El anuncio de MicroStrategy de asociaciones con Tableau, Qlik y Power BI es más que una simple concesión a los competidores. De hecho, estas tres herramientas de inteligencia empresarial de autoservicio son ahora estándares de la industria, lo que crea aún más una barrera para otras empresas que buscan causar sensación en el espacio de la visualización.
También mercantilizaron industrias enteras. Entre Tableau Public, Qlik Sense Cloud Basic y Power BI Desktop (y el nivel gratuito del servicio en la nube Power BI), es gratis experimentar capacidades analíticas de nivel básico, con la adición de herramientas de visualización como plotly, experimentar el ecosistema D3 y código abierto Con las plataformas geoespaciales/cartográficas, descubrirá que sus capacidades de análisis cambian de una limitación de tiempo a una limitación de dinero, y deberá pagar para obtener mejores funciones del producto.
Hoy en día, los usuarios dan por sentado las buenas capacidades de procesamiento de datos. Aunque están impresionados por ellas, no están satisfechos con ellas. Los buenos productos no tendrán ventajas competitivas obvias, pero los productos deficientes no tendrán ventajas competitivas obvias. ventajas.
Gobernanza de datos
Aunque la tecnología de gobernanza de datos no ha recibido la atención que merece en el último período, ahora ha comenzado a ganar algo de respeto. El Reglamento General de Protección de Datos (GDPR) de la UE es un ejemplo y, en última instancia, la falta de una gobernanza adecuada es un punto muy importante este año en la necesidad de herramientas de gobernanza eficaces.
Incluso si el cumplimiento es el catalizador, hay otros impulsores detrás de la gobernanza. Las más importantes son las clasificaciones de datos, que hacen que los conjuntos de datos en un lago de datos estén más organizados y sean más fáciles de descubrir. Las herramientas de descubrimiento de datos pueden ayudarle a generar informes sobre las relaciones y los flujos de datos dentro y entre datos en bases de datos y lagos de datos. Desde otra perspectiva, estas herramientas hacen que el propio lago de datos sea más utilizable y que las inversiones en él sean más efectivas. Las herramientas de clasificación y descubrimiento de datos ganarán popularidad a medida que las empresas busquen mejores rendimientos de las inversiones realizadas en años anteriores, lo que impulsará aún más el desarrollo de tecnologías de gobernanza.
Lago de datos en la nube = bloqueo de datos en la nube
Ya hemos hablado de la tendencia de desarrollo del lago de datos basado en el almacenamiento en la nube. Pero la verdad es que este no es un caso de nube interesante al azar, es un punto de venta central y una estrategia de ventas de los principales proveedores de nube.
En una plataforma en la nube específica, cuantos más datos almacene, más trabajo realizará con estos datos en esta plataforma, incluidos, entre otros, la preparación de datos, el análisis, el modelado predictivo y el entrenamiento de modelos (en alto nivel). -máquinas virtuales aceleradas por GPU finales). Las guerras de la nube son guerras de almacenamiento de datos, y el ganador podría dejarlo en la estacada.
Revolución de los contenedores
Todo el mundo sabe que la tecnología de contenedores basada en Docker está cambiando todo en el campo de los centros de datos y el desarrollo de software. El impacto de este cambio es enorme y no puede subestimarse.
¿Pero sabías que se están produciendo cambios similares en el mundo de los datos y el análisis? Es difícil decirlo, porque aunque el cambio es menos obvio, está sucediendo:
MapR ha reposicionado su plataforma de datos convergentes con su PACC (contenedor de cliente de aplicaciones persistentes)
Los proveedores de nube aprovechan el contenedor tecnología para implementar nodos más rápido y facilitar el intercambio de más recursos, haciendo así que los clústeres temporales parezcan más duraderos
Hadoop lanzó recientemente la versión 3.0, y es rápida. Admitirá la ejecución de administradores de recursos YARN en contenedores Docker, lo que permitirá Las dependencias del código de trabajo de Hadoop difieren según el código instalado en cada nodo del clúster.
Cada vez está más claro que todos los proveedores de software, cuyos productos dependen de versiones base de otro software, se están dando cuenta de que los contenedores pueden eliminar los problemas de conflicto de versiones, tanto para ellos como para sus clientes.
Siguiente paso, tomar una decisión
Es muy interesante identificar y predecir grandes tendencias.
Los cambios específicos y destacados que se están produciendo en esas industrias, así como las estrategias seguidas por proveedores y clientes, pueden ayudarle a desarrollar su propio plan de desarrollo. Proporcionan una base para sus decisiones: qué hará este año y qué no. hacer y los resultados que razonablemente puede esperar. Para un punto innovador como el análisis de datos, es necesario planificar constantemente su enfoque y hacer grandes apuestas, pero también es necesario tomar ciertas precauciones. Esperamos y creemos que estos siete análisis de tendencias puedan ayudarle a lograr ambas cosas.