¿Cuáles son los malentendidos sobre big data?
Mito 1: Todos los demás están por delante de nosotros en el despliegue de la tecnología de big data
Aunque cada vez más empresas están empezando a prestar atención a la tecnología y los servicios de big data, los resultados de los cálculos muestran que el 73% de las empresas están invirtiendo o planificando tecnología de big data, pero la mayoría recién está comenzando a adoptar esta tecnología.
Por lo tanto, es infundado preocuparse de que los competidores utilicen tecnología de big data para desarrollarse rápidamente. De hecho, sólo el 13% de las empresas encuestadas han comenzado a implementar tecnologías relacionadas con big data.
“El mayor desafío que enfrentan las empresas es cómo obtener valor de big data y cómo comenzar a implementar tecnología de big data. La mayoría de las empresas encuentran dificultades en la etapa piloto porque no la han implementado en el proceso de negocio o en el proceso. casos de uso reales. Utilice la tecnología."
No te quedas atrás. Desarrollar estrategias para tareas prácticas y colaborar con TI y unidades de negocio.
Mito 2: Big data reemplazará las capacidades de integración de datos
Las empresas esperan procesar información a través de Schema en
Leer y usar múltiples modelos de datos Leer de manera flexible desde el mismo fuente de datos. Esta flexibilidad ayudará a los usuarios finales a decidir cómo interpretar cualquier información de datos a pedido y permitirá personalizar el acceso a los datos para usuarios individuales. Sin embargo, la mayoría de los usuarios utilizan Schema
al escribir. En el modo de tiempo de escritura, los usuarios pueden describir datos y especificar contenido, mientras que la integridad de los datos permanece consistente.
Mito 3: La cantidad de datos es grande, pero los defectos pequeños son insignificantes
Algunas personas piensan que según la Ley de los Grandes Números (Ley de los Grandes Números), los defectos de datos independientes son insignificantes y no afectarán los resultados del análisis.
En comparación con conjuntos de datos de menor escala, los defectos de datos independientes tienen un impacto mucho menor en todo el conjunto de datos, pero actualmente, la cantidad de datos continúa creciendo y los defectos de datos son cada vez más comunes. en el pasado muchos.
“Por lo tanto, el impacto general de los datos de baja calidad en todo el conjunto de datos sigue siendo el mismo. Además, la mayoría de los datos utilizados por las empresas en un entorno de big data provienen de fuentes de datos externas cuya estructura de datos. y el origen son desconocidos ”
“Esto significa que el riesgo de problemas de calidad de los datos es mayor que antes. Por lo tanto, la calidad de los datos es en realidad más importante en las implementaciones de big data”
Diseñar nuevos. Método de gestión de calidad de los datos y selección del nivel de calidad de los datos. Respete estrictamente los principios básicos de garantía de calidad de los datos.
Mito 4: No tiene sentido utilizar almacenes de datos para análisis avanzados
Algunas personas creen que implementar almacenes de datos es una pérdida de tiempo cuando las capacidades de análisis avanzado pueden utilizar nuevos tipos de datos. De hecho, la mayoría de los proyectos de análisis avanzados utilizan almacenes de datos para el análisis.
Los nuevos tipos de datos también pueden requerir refinamiento para hacerlos adecuados para el análisis de datos. Además, las empresas deben tomar decisiones sobre qué datos son relevantes, cómo agregarlos y qué nivel de calidad de los datos es necesario.
Utilice almacenes de datos siempre que sea posible para almacenar conjuntos de datos recopilados e inspeccionados manualmente para funciones analíticas avanzadas.
Mito 5: Los lagos de datos reemplazarán a los almacenes de datos
Las soluciones de lagos de datos a menudo se comercializan como plataformas de nivel empresarial para analizar una variedad de fuentes de datos diferentes en formatos nativos. Pero es un error pensar que los lagos de datos reemplazan a los almacenes de datos o sirven como componentes críticos en la infraestructura analítica.
En comparación con la tecnología de almacenamiento de datos ya establecida, la tecnología del lago de datos aún no está madura y sus funciones no son lo suficientemente completas. "Los almacenes de datos ya tienen la capacidad de admitir múltiples grupos de usuarios". Por lo tanto, las empresas no necesitan esperar a que madure la tecnología del lago de datos.
Utilizar tecnologías de lago de datos como Hadoop en almacenes de datos existentes. Sólo invirtiendo en tecnología, herramientas y capacitación para la gestión de metadatos se puede crear valor empresarial a través de la tecnología de lago de datos.
En la era del big data, sólo eliminando los malentendidos sobre el big data podremos hacer un mejor uso de esta tecnología.