Red de conocimiento informático - Material del sitio web - El análisis y el procesamiento de big data deben diversificarse

El análisis y el procesamiento de big data deben diversificarse

El análisis y el procesamiento de big data deben diversificarse

Con el desarrollo y la aplicación de big data en diversos campos comerciales, también están surgiendo en un flujo interminable tecnologías y herramientas relacionadas, entre las que se encuentran El marco Hadoop ha recibido más atención Atención y adopción. En la Conferencia Mundial Strata+Hadoop en Nueva York, un experto de Estados Unidos dijo que no se debe subestimar el valor de la tecnología de bases de datos relacionales. Él cree que el marco de programación Hadoop puede ser sinónimo del movimiento de "grandes datos", pero no es la única herramienta para que las empresas obtengan valor de las grandes cantidades de información no estructurada almacenada.

Hay muchos conceptos populares de big data que deben cuestionarse, empezando por la creencia común de que se puede aprovechar Hadoop y que es fácil de usar. El problema es que Hadoop es una tecnología y el big data no tiene nada que ver con la tecnología. Big data está relacionado con las necesidades empresariales. De hecho, los macrodatos deberían incluir Hadoop y bases de datos relacionales y cualquier otra tecnología que se adapte a la tarea en cuestión, dijo Rudin, añadiendo que el modelo de negocio de Facebook se basa en el procesamiento de perfiles de usuario y datos de actividad de sus más de mil millones de usuarios de redes sociales para proporcionar servicios específicos. Publicidad sexual. Sin embargo, Hadoop no siempre es la mejor herramienta que necesitamos.

Por ejemplo, tiene sentido realizar un análisis exploratorio exhaustivo de un conjunto de datos en Hadoop, pero el almacenamiento relacional es más adecuado para el análisis de cosas que aún no se han descubierto. Hadoop también es excelente para encontrar detalles de nivel más bajo en conjuntos de datos, pero las bases de datos relacionales son más adecuadas para almacenar transformaciones y agregaciones de datos. Entonces, cualesquiera que sean sus necesidades, utilizar la tecnología adecuada es lo más importante.

También se supone, dijo, que el análisis puramente conductual de big data proporciona un valor valioso: "El problema es que este tipo de análisis puede proporcionar respuestas más inteligentes a preguntas que nadie ha planteado". sigue siendo un arte descubrir cuáles son las preguntas correctas "Facebook se ha centrado en contratar a las personas adecuadas para ejecutar sus operaciones analíticas, personas que no sólo tienen doctorados en estadística sino que también tienen conocimientos de negocios.

Cuando entreviste a los empleados, no se centre únicamente en "cómo calculamos esta métrica", proporcióneles un caso de negocio y pregúnteles qué métrica es más importante en ese caso. Las empresas también deberían trabajar para fomentar la conciencia entre todos los que participan en la analítica.

Según Rudin, Facebook llevó a cabo internamente un programa de "campo de entrenamiento de datos" de dos semanas de duración para enseñar a los empleados cómo realizar análisis. Asisten jefes de producto, diseñadores, ingenieros e incluso gente del departamento financiero. El objetivo de tener a todos involucrados es que todos puedan discutir preguntas y problemas de datos entre sí utilizando el lenguaje de datos ****ty.

Facebook también ha cambiado la forma en que se organizan sus estadísticos y equipos comerciales. Si los estadísticos siguen siendo independientes, tienden a sentarse y esperar a que las áreas comerciales les hagan solicitudes y respondan, en lugar de ser proactivos. Pero si coloca a un estadístico en una unidad de negocios, encontrará que varios grupos intentarán resolver el problema una y otra vez.

Facebook ha adoptado un modelo "integrado", en el que los analistas se ubican en equipos de negocios, pero reportan a algunos analistas de mayor rango, lo que ayuda a evitar la duplicación del trabajo.

El experto en datos Anoop mencionó en otro artículo los consejos y trucos de Hadoop para combinar y procesar big data. Dijo que, en términos generales, los datos deben conectarse en múltiples conjuntos de datos para su procesamiento y unión, para obtener el resultado final. resultado. MapReduce proporciona conexiones de datos del lado del mapa y del lado Reducido. Pig proporciona uniones de copia, uniones de fusión y uniones sesgadas, y Hive proporciona uniones del lado del mapa y uniones externas completas para analizar datos. Un hecho importante es que al utilizar varias herramientas como MapReduce, Pig y Hive, los datos se pueden utilizar de acuerdo con sus capacidades integradas y necesidades reales. En cuanto al análisis de cantidades masivas de datos en Hadoop, Anoop señaló que normalmente en el mundo de big data/Hadoop, algunos problemas pueden no ser complejos y las soluciones pueden ser sencillas, pero el desafío radica en el volumen de datos. En este caso, se necesita una solución diferente para solucionar el problema. Algunas de estas tareas de análisis incluyen contar la cantidad de ID explícitas en archivos de registro, transformar datos almacenados dentro de un rango de fechas específico y clasificar a los usuarios web.

Todas estas tareas se pueden resolver con la ayuda de diversas herramientas y tecnologías en Hadoop, como MapReduce, Hive, Pig, Giraph y Mahout. Estas herramientas pueden ampliar de manera flexible su funcionalidad con rutinas personalizadas.

De hecho, el experto en datos Joe Brightly también se unió a la discusión de Rudin. También resumió varias razones por las que Hadoop no es adecuado para el análisis de datos, entre ellas:

"Hadoop es un marco, no un marco. una solución" - cree que cuando se resuelven problemas de análisis de big data, la gente cree erróneamente que Hadoop puede funcionar de forma inmediata y eficiente, cuando en realidad "para consultas simples, no es un problema, pero para problemas de análisis más difíciles, Hadoop se vuelve obsoleto". muy rápidamente porque requiere que usted desarrolle código Map/Reduce directamente. Por lo tanto, Hadoop se parece más a un entorno de programación J2EE que a una solución de análisis empresarial". El llamado marco significa que sobre su base hay que desarrollar e implementar de forma personalizada y orientada al negocio, lo que implica costes.

Los subproyectos de Hadoop, Hive y Pig, son geniales, pero no pueden trascender las limitaciones de su arquitectura. --Joe sugirió: "Hive y Pig son herramientas efectivas que pueden ayudar a los ingenieros no profesionales a usar Hadoop de manera rápida y eficiente, convirtiendo consultas analíticas en tareas SQL ordinarias o Java Map/Reduce que se pueden implementar en un entorno Hadoop". Entre ellos, Hive es una herramienta de almacenamiento de datos basada en Hadoop que ayuda con la agregación de datos, la consulta instantánea y el análisis de grandes conjuntos de datos almacenados en sistemas de archivos compatibles con Hadoop. Pig es un lenguaje de flujo de datos de alto nivel y un marco de ejecución para computación paralela. Sin embargo, los autores creen que "algunas limitaciones del marco Map/Reduce de Hadoop pueden conducir a ineficiencias, especialmente en el caso de la comunicación entre nodos (donde se requiere clasificación y unión)".

Joe concluyó: "Hadoop es una herramienta excelente para realizar análisis de datos muy complejos. Pero, irónicamente, también requiere mucho esfuerzo de programación para obtener las respuestas a estas preguntas. Este punto va más allá del alcance de aplicaciones de análisis de datos; en realidad refleja el problema de equilibrio de elección que se debe enfrentar al usar marcos de código abierto. Al elegir un marco o código de código abierto, asegúrese de considerar cuánto puede aportarle, cuánto tiempo y costo puede aportar. Se puede ahorrar, cuánta eficiencia se puede mejorar. También debe comprender cuántos costos adicionales se generan, como los costos de aprendizaje para los ingenieros, los costos de desarrollo y mantenimiento y la escalabilidad futura, incluso si se utiliza el marco después de la actualización. Y su equipo realiza las actualizaciones correspondientes. Después de todo, la fragilidad de los marcos de código abierto es bien conocida.

Lo anterior es lo que quiero compartir con ustedes sobre el análisis y el procesamiento. Contenido relacionado que debe diversificarse. Para obtener más información, puede seguir a Global Green Vine para compartir más información útil

.