Cómo construir una arquitectura de lago de datos
Edo?Interactive se topó con un gran problema hace unos años: la empresa utilizaba datos de transacciones para ayudar a los minoristas y restaurantes a personalizar las promociones, pero su almacén de datos no tenía tiempo suficiente para procesar todas las tarjetas de crédito y débitos. Datos de transacciones con tarjeta
“Nos tomó 27 horas al día procesar la cantidad de datos”, dijo Tim Garnto, vicepresidente senior de infraestructura y sistemas de información de Edo. “Así que en 2013, nos dimos por vencidos. El sistema de base de datos relacional existente basado en PostgreSQL utiliza un clúster Hadoop como arquitectura de lago de datos de la empresa".
El equipo de Garnto necesita recopilar más de 50 millones de datos de transacciones minoristas en EE. UU. al día y distribuirlos a 20. A. grupo de nodos que se ejecutan en el rack distribuido Hadoop de Cloudera utilizando las herramientas de integración de datos de Pentaho. Los datos recopilados de bancos y compañías de tarjetas de crédito se incorporan a modelos predictivos diseñados para determinar los cupones requeridos por los titulares de tarjetas individuales. Los socios comerciales de Edo envían cupones por correo electrónico todas las semanas, y estos cupones serán efectivos cuando se realice el consumo correspondiente.
El tiempo diario de compilación de datos se ha reducido a aproximadamente cuatro horas y Garnto dijo que, dependiendo de la complejidad del modelo que se ejecuta, los analistas de datos de Edo pueden "completar su trabajo en minutos u horas". Es posible que estuvieran agotados.
Pero no siempre era una navegación tranquila y soleada en el lago de datos. Al principio, Edo solo tenía un empleado con experiencia en las oficinas centrales conjuntas de la empresa en Chicago y Nashville. Se capacitaron internamente en la tecnología Hadoop, pero luego esto los obligó a abandonar sus formas habituales de consultar datos. “Pasamos mucho tiempo actualizando este proceso. ", dijo Garnto.
La creación de un proceso de dos pasos para garantizar la coherencia de los datos sin procesar y generar un conjunto de datos de análisis estandarizados también tomó tiempo para resolverse. Actualmente, hay 45 mil millones de registros (un total de 255 TB de datos). ) El clúster se ha convertido en el núcleo de las operaciones comerciales de Edo. Para este clúster, Garnto necesita administrar y agregar cuidadosamente nuevas tecnologías ecológicas de Hadoop, de lo contrario, los ajustes en una parte de la empresa pueden afectar el procesamiento del trabajo de otras partes de todo el sistema.
Los lagos de datos permiten análisis en tiempo real
Webtrends es otro usuario del lago de datos que recopila y procesa datos de actividad en sitios web, teléfonos móviles y el Internet de las cosas. La empresa con sede en Portland. implementó un clúster Hadoop basado en Hortonworks en julio de 2014. Actualmente se encuentra en la fase de prueba y está previsto que se implemente por completo a principios de 2015. Inicialmente solo admite un producto llamado Explore, que permite a los especialistas en marketing empresarial realizar análisis especiales de datos de clientes. Peter Crossley, director de arquitectura de productos de Webtrends, dijo que cada trimestre se agregan aproximadamente 500 TB de datos al clúster de 60 nodos y que con el tiempo el total ahora es de 1,28 PB. Con el tiempo, Webtrends planea utilizar la plataforma Hadoop en lugar de la suya. propio sistema de archivos planos de almacenamiento conectado a la red de datos Utilizando colas de mensajes Apache Kafka y tecnología de procesamiento de scripts automatizado, los datos del flujo de clics de Internet se pueden verter en el clúster y entregarse en 20 a 40 milisegundos, dijo Crossley. el proceso de informes y análisis se puede iniciar casi instantáneamente, lo cual es mucho más rápido que el sistema anterior. El clúster Hadoop también admite análisis avanzados y puede reducir los costos de hardware entre un 25 % y un 50 %. El concepto de lago de datos requería un "cambio de mentalidad" dentro de la empresa a la hora de gestionar y utilizar la información que Webtrends recopila para sus clientes. Anteriormente, la empresa utilizaba principalmente almacenes de datos para crear informes generales. como una fuente de verdad sobre la cual se pueden construir múltiples conjuntos de datos para diferentes propósitos analíticos.
Webtrends también ha tenido que pensar mucho sobre su arquitectura de datos y sus procesos de gobierno de datos para evitar que los clústeres de Hadoop se conviertan en "datos". pantanos", como dice Crossley.
La estructura de datos original que acaba de ingresar al sistema es muy flexible (+ WeChat se enfoca en el mundo en línea), pero debería haber reglas muy estrictas que dicten cómo debería verse. Además, su equipo ha dividido el clúster en tres niveles diferentes: uno para los datos sin procesar, un segundo para conjuntos de datos incrementales diarios y otro para almacenar información de terceros que debe incluirse. Cada nivel tiene sus propias estrategias de gobernanza y clasificación de datos basadas en diferentes detalles del conjunto de datos.
Mantenga el control de sus datos
El CTO de Razorsight, Suren Nathan, también señaló que construir y administrar un lago de datos de Hadoop requiere buena disciplina y organización. De lo contrario, el sistema puede convertirse rápidamente en un volcado fuera de control, como un SharePoint formado por muchos archivos que nadie sabe cómo encontrar.
Razorsight proporciona un conjunto de servicios de análisis basados en la nube para empresas de telecomunicaciones. En el segundo trimestre de 2014, comenzó a utilizar la tecnología MapR que se ejecuta en clústeres de Hadoop. Los datos operativos, de red y del grupo de clientes se ingresan en el sistema a través de herramientas internas, se procesan a través del motor Spark y son analizados por científicos de datos de Razorsight. El clúster tiene cinco nodos de producción y 120 TB de capacidad de almacenamiento.
Al igual que Webtrends, el lago de datos de Razorsight se divide en tres particiones. En el caso de Razorsight, un lago de datos es capaz de almacenar menos de seis meses de datos, otro contiene datos más antiguos pero aún activos y un tercero almacena información que ya no se utiliza pero que debe conservarse. Actualmente, hay más de 20 TB de datos en estas dos regiones activas. Para garantizar que el sistema funcione sin problemas, Razorsight contrata nuevos empleados con experiencia en gobierno de datos y desarrollo de sistemas distribuidos, y también capacita a los empleados existentes en el uso de Hadoop, Spark y tecnologías relacionadas.
Actualmente nos encontramos en la etapa de migración a una nueva plataforma. A aproximadamente 2.000 dólares por terabyte, el coste de un clúster Hadoop es sólo una décima parte del sistema de almacenamiento de datos IBM Netezza que la empresa implementó anteriormente. Pero Nathan dijo que Razorsight primero construye clústeres específicamente para el almacenamiento de datos y luego pasa a la fase de procesamiento y preparación. Debido a la estrecha conexión entre el hardware de Netezza y el software de análisis IBM® SPSS, el modelado analítico y la visualización de datos seguirán existiendo en el sistema heredado. El modelado permanecerá como está, pero Nathan espera mover la capa de visualización y los datos de resultados de análisis de Razorsight a una arquitectura de lago de datos para fin de año.
Publicado desde wangjie.com: w.com.cn/software-database/htm2015/20150709_321300.shtml
Compartido por el autor de TechTarget China: Craig Stedman
Reimpreso de wangjie.com: w.com.cn/software-database/htm2015/20150709_321300.shtml