Red de conocimiento informático - Material del sitio web - La inevitabilidad de la era del big data

La inevitabilidad de la era del big data

La inevitabilidad de la era del big data

Big data es una palabra muy candente en este momento y todo el mundo habla de big data. Pero ¿cuál es la definición de big data? ¿Cómo se formó? ¿Qué tiene de especial? ¿Dónde está su mayor área de aplicación? ¿Hacia dónde se dirige? De hecho, la mayoría de la gente está confundida acerca de las preguntas anteriores.

1) La inevitabilidad de la era del big data.

Los términos big data y computación en la nube a menudo se mencionan juntos. Mucha gente cree erróneamente que el big data y la computación en la nube nacieron al mismo tiempo y tienen una fuerte relación vinculante. De hecho, los dos están relacionados y son diferentes. La computación en la nube se refiere a un modelo informático que brinda servicios a través de Internet, mientras que big data se refiere al análisis de datos masivos basado en correlación heterogénea de múltiples fuentes y entre dominios, que ocurre en procesos de toma de decisiones, modelos de negocios, paradigmas científicos, estilos de vida y formas relacionadas. La suma total del cambio disruptivo. El procesamiento de big data hará uso de muchas tecnologías en el campo de la computación en la nube, pero los big data no dependen completamente de la computación en la nube; por el contrario, la computación en la nube no es solo una aplicación de big data;

Los orígenes de la computación en la nube se remontan a una idea contenida en un documento presentado por el ingeniero de Amazon Chris Pinkham al director ejecutivo Jeff Bezos a finales de 2003: los desarrolladores de todo el mundo abren la infraestructura informática utilizada internamente por Amazon. En octubre de 165438+ del año siguiente, Amazon lanzó la primera versión de su servicio de computación en la nube: Simple Queue Service. El servicio de cola simple se desarrolló aún más en 2006 y evolucionó hasta convertirse en el famoso AWS (Amazon Web Sercice) de hoy. También en 2006, el director ejecutivo de Google, Eric Schmidt, propuso públicamente por primera vez el concepto de "computación en la nube", y la computación en la nube también se hizo ampliamente conocida este año.

El término big data se hizo popular varios años después; no fue hasta 2009 que el término big data comenzó a extenderse gradualmente en el círculo de Internet. Sin embargo, su popularidad en el campo de Internet todavía no es suficiente para atraer una atención generalizada, porque después de todo, la economía pura de Internet sólo representa una pequeña parte de la economía global. El concepto de big data realmente se hizo popular porque la administración Obama anunció el "Plan de investigación y desarrollo de big data" en 2012. El gobierno de Estados Unidos espera utilizar big data para resolver algunos problemas muy importantes que enfrentan algunos departamentos gubernamentales. El plan incluye 84 subtemas, que abarcan seis departamentos gubernamentales. Esto indica que los big data realmente han comenzado a ingresar a la economía tradicional fuera de línea.

Existen razones profundas para el surgimiento del big data. El período comprendido entre 2009 y 2012 fue el período en el que el comercio electrónico floreció plenamente en todo el mundo, incluida China. Como todos sabemos, existen tres modelos de negocio en el ámbito de Internet: la publicidad, los juegos y el comercio electrónico. El comercio electrónico es el primer modelo híbrido que realmente combina la economía pura de Internet con la economía tradicional. Para ser precisos, es la colisión entre Internet y la economía tradicional lo que realmente dio origen a los “grandes datos” a los que casi todo el mundo presta atención hoy en día. Big data abarca la industria de Internet y las industrias tradicionales. Los campos de aplicación verdaderamente amplios de big data son en realidad industrias tradicionales que son mucho más grandes que la economía de Internet pura.

Desde la perspectiva del volumen de datos, antes de la aparición del modelo de comercio electrónico, el número de empresas tradicionales crecía lentamente. La mayoría de los datos en los almacenes de datos empresariales tradicionales provienen de datos de transacciones, que se encuentran en la parte inferior del embudo de toma de decisiones de consumo del usuario. Esto determina que la cantidad de datos de comportamiento del usuario, como la navegación, la búsqueda y la comparación previas a la transacción, supera con creces. datos de la transacción. El modelo de comercio electrónico permite a las empresas recopilar la navegación, las búsquedas, las comparaciones y otros comportamientos de los usuarios, lo que lleva a un aumento de al menos un orden de magnitud en la supervisión de los datos corporativos. Con la Internet móvil cada vez más popular y la Internet de las cosas que lo serán en el futuro, la cantidad de datos definitivamente aumentará en dos o tres órdenes de magnitud. Desde esta perspectiva, la era del big data es inevitable.

Desde la perspectiva del desarrollo de la industria de TI, la mayoría de los gigantes de TI de primera generación son 2B, como las empresas de TI tradicionales como IBM, Microsoft, Oracle y SAP. La mayoría de los gigantes de TI de segunda generación son 2C, como Yahoo, Google, Amazon, Facebook y otras empresas de Internet. Un fenómeno interesante es que antes de la era del big data, estos dos tipos de empresas básicamente no interferían entre sí. Rara vez vemos a los jefes de estos dos tipos de empresas sentados juntos y hablando, pero en la era actual del big data, estos dos. Tipos de empresas ya han empezado a competir directamente. Por ejemplo, Amazon ha comenzado a ofrecer servicios de almacenamiento de datos basados ​​en la nube, apoderándose directamente del mercado de IBM y Oracle. La razón esencial de este fenómeno es que, impulsados ​​por los gigantes de Internet, los clientes de los gigantes tradicionales de TI generalmente comienzan a participar en negocios de comercio electrónico.

Precisamente porque los clientes han entrado en Internet, los gigantes tradicionales de TI se han visto arrastrados a regañadientes al campo de Internet. Si no se conectan a Internet, su negocio definitivamente se reducirá. Por lo tanto, el gigante de TI de tercera generación puede ser una empresa de TI que integre 2B y 2C.

2) La connotación central de big data

Aunque el concepto de big data es muy popular, pocas personas realmente entienden el contenido central de big data. Un malentendido común y grave es que big data = big data, es decir, big data es una gran cantidad de datos. De hecho, además del significado literal de grandes cantidades de datos, big data tiene dos características más importantes:

1) Fusión de datos entre dominios. El aumento de datos en un mismo campo es un efecto aditivo y la fusión de datos en diferentes campos es un efecto multiplicativo.

2) Flujo de datos. Los datos deben fluir y el flujo crea valor.

Para el punto 1), los resultados experimentales del Centro de Investigación del Sistema de Recomendación 100% muestran que la Empresa 100% Recomendación tiene tres clientes, que son empresas de comercio electrónico dedicadas a la venta de ropa, cosméticos y Equipaje Brindar servicios personalizados de recomendación de productos, es decir, extraer el 100% de las preferencias del usuario y mostrar diferentes prendas, cosméticos o bolsos a diferentes usuarios cuando visitan el mismo sitio web de comercio electrónico, aumentando así la tasa de conversión del comercio electrónico y el precio unitario. . Realizamos dos pruebas:

a) Aislar los datos de cada sitio web. Cuando la cantidad de datos en cada sitio web aumenta a 4 veces la original, el efecto de recomendación se puede mejorar en aproximadamente un 5%;

b) Los datos de los tres sitios web se fusionan después de eliminar la información confidencial. Los datos fusionados son aproximadamente tres veces mayores que los de un solo sitio web y la cantidad de datos es menor que en el primer caso. Cuando se utilizan datos fusionados para la minería de datos, el efecto de recomendación se puede mejorar en un 30% y los productos recomendados permanecen sin cambios. Los usuarios todavía ven sólo ropa cuando van a sitios web de ropa, sólo ven cosméticos cuando van a sitios web de cosméticos y sólo ven bolsas cuando van a sitios web de equipaje.

Para explicarlo en detalle, el experimento anterior muestra que si queremos recomendar ropa al mismo consumidor, el primer método es predecir qué comprará la próxima vez en función de sus últimas cuatro compras de ropa. El segundo método consiste en predecir la ropa que podrá comprar a continuación en función de sus compras anteriores de ropa, cosméticos y bolsos. El número de filas de usuario según los dos métodos es 4 y 3 veces respectivamente, pero el segundo método es significativamente mejor.

En cuanto al punto 2), de hecho, cuando las empresas tradicionales comenzaron a construir almacenes de datos hace más de 10 años, los profesionales del almacén de datos a menudo enfatizaron un punto: el objetivo de los almacenes de datos a nivel empresarial es permitir que los datos fluir entre diferentes departamentos. Como resultado, los datos de cada departamento están fragmentados y el valor de los datos no se aprovechará por completo. En la era actual de Internet, encontramos que, aunque los datos entre los departamentos internos de la empresa han estado conectados durante mucho tiempo, la cantidad de datos sigue siendo muy pequeña en comparación con toda Internet. Los datos deberían fluir entre empresas de alguna forma a través de Internet. Refiriéndose al concepto de "almacén de datos a nivel empresarial", ha comenzado a surgir el concepto de "almacén de datos de Internet": es decir, las empresas integran datos externos relacionados con ellas mismas y datos internos a través de canales de Internet, formando así un "almacén de datos de Internet". ". Percentage ha construido con éxito la "Alianza de Datos Abiertos" en los campos minorista y de medios. Los miembros de la Alianza pueden construir su propio "almacén de datos de Internet" de manera justa y segura sobre la base de la alianza, disfrutando así del valor de los datos masivos.

3) Campos de aplicación del big data

El origen del big data se atribuye a Internet y al comercio electrónico, pero las mayores perspectivas de aplicación del big data todavía se encuentran en las industrias tradicionales. En primer lugar, porque casi todas las industrias tradicionales se basan en Internet y, en segundo lugar, porque las industrias tradicionales todavía representan la gran mayoría del PIB del país.

¿Qué empresas tradicionales necesitan más servicios de big data? Hay al menos tres tipos de empresas:

1) Empresas que ofrecen productos o servicios a un gran número de consumidores.

2) Conviértete en una pequeña y hermosa empresa de mediana y larga cola.

3) Empresas tradicionales que deben transformarse bajo la presión de Internet.

1) Las empresas necesitan utilizar big data para analizar con precisión las preferencias de diferentes consumidores y mejorar la calidad del marketing y del servicio; 1) las empresas necesitan utilizar análisis de big data para localizar con precisión su base de clientes; empresas Se refiere principalmente a empresas tradicionales que se ven impactadas por nuevos jugadores de Internet. Naturalmente, estas empresas necesitan utilizar Internet y los macrodatos como herramientas para su propia evolución. Por supuesto, la tercera categoría de empresas se superpone con las dos primeras categorías.

Específicamente, las industrias que más necesitan servicios de big data en China son las que se han visto más afectadas por Internet. La primera es la industria minorista fuera de línea, seguida por la industria financiera.

Afectados por el comercio electrónico, la tasa de crecimiento de muchos gigantes minoristas nacionales se ha desacelerado seriamente e incluso ha experimentado un crecimiento negativo. El comercio minorista fuera de línea ha llegado a un momento crítico en el que tiene que cambiar. También hemos visto gigantes tradicionales innovadores como los grandes almacenes Intime, los grandes almacenes Wangfujing y Wanda Group comenzar a utilizar Internet y big data para transformar el comercio fuera de línea. Entre ellos, vale la pena aprender de la innovación de los grandes almacenes Intime de extracción de datos de doble línea utilizando teléfonos móviles como operador y método O2O.

La industria financiera es aún más especial: la industria financiera no vende ningún objeto físico y ha sido una industria basada en datos desde su nacimiento. Debido al control estatal, la industria financiera ha disfrutado de muy buenos dividendos políticos en los últimos años y ha carecido de motivación para realizar reformas internas. En la actualidad, la industria financiera está comenzando gradualmente a desregularse y las instituciones financieras emergentes utilizarán Internet y herramientas de big data para lanzar feroces ataques contra los gigantes financieros tradicionales. Sin embargo, las instituciones financieras tradicionales tienen una acumulación de tecnología y de datos insuficiente en Internet. Para responder rápidamente a los desafíos de los nuevos participantes, son necesarios servicios de big data. También hemos visto que el Centro de tarjetas de crédito de China CITIC Bank y el Centro de tarjetas de crédito de China Merchants Bank han comenzado a utilizar big data de Internet para innovar.

Entonces, ¿qué tipo de servicios de big data necesitan las industrias tradicionales? Esto incluye principalmente tres capas:

1) Aplicaciones verticales de la industria basadas en big data. Cada industria tiene sus propias características y, naturalmente, habrá demandas de aplicaciones industriales;

2) La disposición de las etiquetas de clientes y de productos. No importa en qué industria se encuentre, debe ordenar cuidadosamente las etiquetas de atributos de sus clientes y productos, y estas etiquetas deben poder refinarse para clientes y productos individuales. Las etiquetas son la base de las aplicaciones industriales;

3) Integración y gestión de datos internos y externos. Para etiquetar clientes y productos, primero debemos integrar los datos internos y externos de la empresa, especialmente los datos externos cada vez más importantes y enormes.

Figura: Servicios de big data que necesitan las empresas tradicionales

Los métodos de Nivel 3 y Nivel 2 son relativamente generales y tienen relativamente poca especificidad industrial. Percent ha fabricado productos maduros en el tercer y segundo piso, y también ha comenzado a fabricar algunos productos de aplicaciones industriales específicas en el primer piso, como sistemas de combinación de moda para la industria de la confección.

4) La dirección del desarrollo del big data

¿En qué dirección se desarrollará la industria del big data en el futuro? A medida que los datos se conviertan gradualmente en un activo empresarial, la industria de datos se desarrollará hacia el modelo de cadena de suministro de las empresas tradicionales, formando eventualmente una "cadena de suministro de datos". Tomemos como ejemplo la industria del acero. Las empresas de mineral de hierro extraen el mineral de las minas, lo procesan en bruto y lo venden a las empresas siderúrgicas. Las empresas siderúrgicas realizarán el procesamiento de acabado y venderán placas y barras de acero a empresas manufactureras transformadoras; estas empresas manufactureras fabricarán automóviles, aviones, puertas, ventanas, computadoras y otros productos y los venderán a empresas transformadoras. Esta cadena industrial tiene muchos eslabones, incluidos la prospección, el transporte y el procesamiento, y cada eslabón tiene sus empresas correspondientes.

Figura: Cadena de suministro de empresas tradicionales

En la "cadena de suministro de datos", hay tres eslabones: datos, herramientas de minería e integración de datos, y aplicaciones de datos. Los datos son como el mineral en una mina; la integración de datos y las herramientas de minería son como hornos de fundición en plantas siderúrgicas; las aplicaciones de datos, como el marketing de precisión y la combinación de ropa, son como productos que se pueden vender a los consumidores, como automóviles y computadoras. Las empresas necesitan servicios profesionales en diversos aspectos, como el suministro de datos, la integración y extracción de datos y la aplicación de datos. Hay dos fenómenos obvios aquí:

1) Los datos externos son cada vez más importantes que los datos internos. En la era de Internet interconectada, los datos internos de una sola empresa son solo una gota en el océano en comparación con todos los datos de Internet;

2) Empresas que pueden proporcionar servicios multienlace, incluido el suministro de datos y la integración de datos. procesamiento, aplicación de datos, etc., tendrá ventajas competitivas integrales obvias.

5) ¿Qué tipo de empresa de big data ganará?

Los profesionales e inversores de Big Data a menudo discuten una pregunta con nosotros: ¿Qué tipo de empresa ganará finalmente en la industria de Big Data? Esta es una pregunta difícil de responder, e incluso si se responde, puede que no sea posible juzgar si es correcta en un plazo de tres a cinco años. Sin embargo, todavía se pueden extraer algunas conclusiones valiosas del análisis de cada eslabón de la "cadena de suministro de datos".

1) Suministro de datos. En una era anterior a la popularización de Internet, los datos utilizados por las empresas en los almacenes de datos, la inteligencia empresarial, la extracción de datos y otros sistemas procedían básicamente de la empresa. Las empresas difícilmente podían obtener datos externos, por lo que había pocos proveedores de datos profesionales. Internet ha cambiado esta situación y en el futuro habrá proveedores de datos profesionales. Sin embargo, dado que la aparición de Internet ha llevado a la aparición de proveedores de datos, estos a su vez también deben tener fuertes genes de Internet;

2) Integración y minería de datos.

Los proveedores de herramientas de minería de datos existen desde hace mucho tiempo en la era sin Internet. Sin embargo, la era de Internet ha provocado un aumento en la cantidad de datos empresariales y grandes cambios en los tipos de datos (a diferencia de los datos estructurados tradicionales de un solo campo, los datos de Internet son principalmente datos no estructurados de campos cruzados), y las tecnologías y métodos de los datos tradicionales. Los proveedores de herramientas de minería han tenido dificultades para adaptarse. Para mantenerse al día con los cambios de los tiempos, los usuarios de tecnologías y herramientas de minería de datos deben tener las capacidades masivas de procesamiento y minería de datos de las empresas de Internet;

3) Aplicaciones de datos. Las aplicaciones industriales específicas están estrechamente relacionadas con el negocio de las industrias tradicionales. Para hacer un buen trabajo en aplicaciones industriales, es mejor tener experiencia en el servicio de industrias tradicionales y comprender los modelos operativos internos de las industrias tradicionales. En este momento, las empresas de Internet con solo experiencia en 2C son ligeramente insuficientes.

En conjunto, si una empresa de big data tiene capacidades de adquisición de datos de Internet, tecnología de Internet y capacidades de ejecución de Internet, y experiencia en servicios 2B, entonces será más probable que la empresa obtenga una ventaja de liderazgo. Esta conclusión no sorprende en absoluto: como se mencionó al principio de este artículo, big data fue originalmente producto de la colisión entre Internet y las industrias tradicionales.

Es demasiado pronto para utilizar la palabra "ascendente" para describir la etapa de desarrollo de la industria del big data. En la actual industria de big data, solo se puede decir que el río está mostrando sus aristas. Las empresas nacionales están claramente por detrás de las empresas extranjeras en la industria de TI de primera generación (industria de software y hardware) en la industria de TI de segunda generación (industria de Internet), las empresas nacionales no se quedan atrás de las empresas extranjeras en muchos aspectos e incluso superan a las empresas extranjeras; . Espero que en la ola de la industria de TI de tercera generación (computación en la nube, big data), las empresas nacionales puedan alcanzar completamente a las empresas extranjeras, y también creemos que es muy posible.