Siete tendencias empresariales importantes que pueden afectarle en la era del big data
Hemos visto muchos casos de este tipo en los que las empresas están dispuestas a compartir sus resultados en la aplicación del big data. Cualquier cambio de paradigma en la industria de TI, un tema específico atraerá mucha atención de los medios de comunicación, los inversores y los talentos innovadores, y este cambio requiere el apoyo de precios comerciales fuertes. Casos típicos son: atención al cliente, computación distribuida y arquitecturas y lenguajes orientados a servicios, como JAVA.
También vemos el surgimiento de un ecosistema beneficioso que rápidamente complementa o amplifica las tecnologías habilitadoras centrales. Tomando big data como ejemplo, el ecosistema de big data ha reunido rápidamente una serie de proveedores de tecnología, como Hadoop, Cassandra, Accumulo, Oracle e IBM.
Entonces, ¿qué tendencias puedo ver en el ecosistema de big data?
En Hadoop, un gran número de empresas de tecnología están trabajando arduamente para crear una tecnología libre de SQL para proporcionar soluciones para big data, como Hadoop. Sin embargo, la profundidad y amplitud del soporte del lenguaje SQL son diferentes. Los analistas profesionales que utilizan SQL pueden aprovechar estas ventajas y operar bien big data a través del lenguaje SQL. Los casos actuales son: hadapt, impala, teradatasterandemcgreenplompivotalhd.
(Nota del traductor: dado que el almacenamiento de big data actual no se basa en una base de datos relacional, la forma tradicional de operar datos a través del lenguaje SQL no se puede utilizar directamente. Por ejemplo, no se puede acceder directamente a los datos almacenados en Hadoop a través de consultas SQL, por lo tanto, es necesario convertir el lenguaje SQL tradicional para operar. Por ejemplo, Hive en Hadoop es equivalente a convertir SQL a MapReduce para leer y operar datos estructurados en Hadoop. respaldar el crecimiento de datos no estructurados en cualquier momento. IDC predice que la cantidad de datos, la mayoría de los cuales se almacenarán en forma no estructurada, crecerá entre un 40% y un 50% cada día. Para 2020, la cantidad total de datos alcanzará los 40 ZB. Los datos no estructurados provienen principalmente de correos electrónicos, foros, blogs, redes sociales, sistemas POS y datos generados por máquinas. Para obtener y analizar estas grandes cantidades de datos, los innovadores deben ampliar sus soluciones de Big Data a más de uno de ellos.
Antes de optimizar la búsqueda, es casi imposible encontrar las necesidades reales de búsqueda de los usuarios a partir de datos masivos, como encontrar una aguja en un pajar. Pero con el paso del tiempo, cada vez se integran más soluciones de big data en el soporte de recuperación. Los líderes en este campo incluyen: LucidWorks, IBM, Oracle (mediante la adquisición de Endeca) Autonomy y MarkLogic. LucidWorks combina la pila de código abierto Lucene con Solr, Hadoop, Mahout y NLP.
Expansión y soporte de ETL Mucha gente cree que hadoop se usó originalmente para ETL debido a sus capacidades de procesamiento por lotes. Sin embargo, si ve una plataforma hadoop compleja donde toda la infraestructura se basa en soluciones etl, puede utilizar otras herramientas etl puras (Informatica, Talend, Syncsort, Clover ETL) para resolverlo. A lo largo de los años, estas empresas han trabajado arduamente para crear las soluciones ETL más valiosas, que ahora llamamos más: soluciones de integración de datos.
Los proveedores puros de ETL están intentando ofrecer soluciones para big data. Estos soportes incluyen fácilmente: ETL y ELT, conversión de hadoop a hadoop. Esto permitirá a las empresas aprovechar el poder de las soluciones ETL puras y del propio Hadoop para construir dicho entorno. Con el tiempo, la gama de soluciones de big data respaldadas por estas empresas puramente ELT incluye: NewSQL y NoSQL.
Además, espero que muchas empresas de soluciones de big data incorporen soporte para ETL y ELT, del mismo modo que muchos proveedores de bases de datos tradicionales han integrado o adquirido soluciones ETL.
Escribí en mi artículo anterior que hadoop con Apache como marco de código abierto se ha utilizado en entornos distribuidos masivos orientados por lotes, especialmente en el contexto del análisis. En todo momento, las empresas están prestando atención a cómo controlar y utilizar recursos masivos de datos para la toma de decisiones en tiempo real, y esperamos que esto sea de gran ayuda para la influencia y el crecimiento del "movimiento de big data". El flujo de información en tiempo real representado por este "aterrizaje" se utiliza para procesar grandes flujos de datos en diversas industrias, incluidos los mercados de capitales, la atención médica, la energía, las redes sociales, etc.
Aquellos que están añadiendo tecnologías de análisis y minería de datos en el campo del big data saben que necesitan ampliar la demanda de análisis de datos y funciones estadísticas en sus plataformas. Además de las capacidades de análisis generales, también agrega capacidades extraordinarias de minería de datos. TeradataAste incluye muchas funciones de análisis, incluida la compatibilidad con estadísticas, minería de texto, imágenes, análisis de sentimientos, etc. Otras empresas como IBM Netezza también han agregado soporte para el lenguaje R, que puede admitir varios paquetes de R, como paquetes de algoritmos de computación paralela, paquetes relacionados con matrices, etc. En el futuro, podemos ver que las soluciones de big data seguirán aumentando significativamente esta capacidad.
Al beneficiarse del lenguaje R, no hay duda de que el lenguaje R será un lenguaje estadístico de código abierto cada vez más popular. RevolutionAnalytics ha mejorado significativamente el rendimiento en el desarrollo de una versión de R para uso "industrial", en línea con las características de otras empresas. Además, han desarrollado un paquete de extensión R que se puede aplicar a hadoop y PureData. En las universidades también se ofrece una gran cantidad de cursos sobre el lenguaje R, lo que permite que más estudiantes tengan la capacidad de utilizar el lenguaje R y procesar análisis estadísticos complejos. Es previsible que R se incorpore a muchas soluciones de big data, lo que mejorará significativamente el lenguaje y le dará un mejor rendimiento.
Con el desarrollo del ecosistema de big data, las industrias relacionadas inevitablemente se desarrollarán con él. En el entorno de mercado altamente competitivo actual, aquellas empresas que implementen estrategias basadas en datos obtendrán una ventaja sobre la competencia.
Las anteriores son las siete principales tendencias comerciales que el editor compartió con usted y que pueden afectarlo en la era del big data. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.