Red de conocimiento informático - Conocimiento informático - Interpretación integral de big data

Interpretación integral de big data

Interpretación integral de big data

Big data es una palabra muy popular en este momento y todo el mundo habla de big data. Pero ¿cuál es la definición de big data? ¿Cómo surgió? ¿Qué tiene de especial? ¿Dónde está su mayor área de aplicación? ¿Hacia dónde se dirige? De hecho, la mayoría de la gente no tiene claras las cuestiones anteriores.

1) La inevitabilidad de la era del big data

Las dos palabras big data y computación en la nube a menudo se mencionan al mismo tiempo. Mucha gente cree erróneamente que big data y computación en la nube. Nacieron al mismo tiempo, tienen una fuerte relación vinculante. De hecho, existen correlaciones y diferencias entre los dos. La computación en la nube se refiere a un modelo informático que brinda servicios a través de Internet, mientras que big data se refiere al proceso de toma de decisiones, modelo de negocio, paradigma científico y estilo de vida basado en el análisis de datos masivos de múltiples fuentes, heterogéneos y entre dominios. asociaciones y la suma total de cambios disruptivos en las formas asociadas. El procesamiento de big data hará uso de muchas tecnologías en el campo de la computación en la nube, pero los big data no dependen completamente de la computación en la nube; por el contrario, la computación en la nube no es la única aplicación de los big data;

Los orígenes de la computación en la nube se remontan a una idea contenida en un documento presentado al CEO Jeff Bezos por el ingeniero de Amazon Chris Pinkham a finales de 2003: abrir la infraestructura informática utilizada internamente por Amazon a los desarrolladores de todo el mundo. . En noviembre del año siguiente, Amazon lanzó la primera versión de su servicio de computación en la nube: Simple Queue Service. Simple Queue Service se desarrolló aún más en 2006 y evolucionó hasta convertirse en el famoso AWS (Amazon Web Sercice) de hoy. En 2006, el director ejecutivo de Google, Eric Schmidt, propuso públicamente por primera vez el concepto de "computación en la nube", y la computación en la nube comenzó a ser ampliamente conocida este año.

El término big data se hizo popular varios años después; no fue hasta 2009 que el término big data comenzó a extenderse gradualmente en el círculo de Internet. Pero ser popular en el campo de Internet todavía no es suficiente para atraer una atención generalizada, porque después de todo, la economía de Internet pura sólo representa una pequeña parte de la economía global. El concepto de big data realmente se hizo popular porque la administración Obama en los Estados Unidos anunció su "Plan de Investigación y Desarrollo de Big Data" de manera destacada en 2012. El gobierno de los Estados Unidos espera utilizar big data para resolver problemas muy importantes que enfrentan algunos departamentos gubernamentales. El plan consta de 84 subtemas en 6 departamentos gubernamentales. Esto indica que los big data realmente han comenzado a ingresar a la economía tradicional fuera de línea.

Existen razones profundas para el surgimiento del big data. El período comprendido entre 2009 y 2012 fue el período en el que el comercio electrónico floreció plenamente en el mundo, incluida China. Como todos sabemos, existen tres grandes tipos de modelos de negocio en el ámbito de Internet: la publicidad, los juegos y el comercio electrónico. El comercio electrónico es el primer modelo híbrido que realmente une la economía pura de Internet y la economía tradicional. Para ser precisos, es la colisión entre Internet y la economía tradicional lo que realmente dio origen a los “grandes datos” a los que casi todo el mundo presta atención hoy en día. Big data abarca la industria de Internet y las industrias tradicionales, y los campos de aplicación verdaderamente amplios de big data son en realidad industrias tradicionales que son mucho más grandes que la economía de Internet pura.

Desde la perspectiva del volumen de datos, antes de la aparición del modelo de comercio electrónico, el número de empresas tradicionales crecía lentamente. La mayoría de los datos en el almacén de datos de las empresas tradicionales provienen de datos transaccionales, y el comportamiento de las transacciones se encuentra en la parte inferior del embudo de toma de decisiones de consumo del usuario. Esto determina el uso de datos de comportamiento del usuario, como navegación, búsqueda y comparación antes de las transacciones. El volumen supera con creces los datos de las transacciones. El modelo de comercio electrónico permite a las empresas recopilar los comportamientos de navegación, búsqueda, comparación y otros comportamientos de los usuarios, lo que conduce al menos a una mejora de un orden de magnitud en las regulaciones de datos de la empresa. La Internet móvil cada vez más popular ahora y la Internet de las cosas que se volverá popular en el futuro definitivamente aumentarán la cantidad de datos en dos o tres órdenes de magnitud. Desde esta perspectiva, la era del big data seguramente surgirá.

Desde la perspectiva del desarrollo de la industria de TI, la mayoría de los gigantes de TI de primera generación son 2B, como las empresas de TI tradicionales como IBM, Microsoft, Oracle y SAP, la mayoría de las de segunda; Los gigantes de TI de la generación son 2C, como empresas de Internet como Yahoo, Google, Amazon y Facebook. Un fenómeno interesante es: antes de la era del big data, estos dos tipos de empresas eran básicamente incompatibles entre sí. Rara vez vemos a los jefes de estos dos tipos de empresas sentados juntos y hablando entre sí, pero en la era actual de las grandes empresas. Según los datos, estos dos tipos de empresas son básicamente incompatibles entre sí y las empresas han comenzado a competir directamente. Por ejemplo, Amazon ha comenzado a ofrecer servicios de almacenamiento de datos basados ​​en la nube, apoderándose directamente del mercado de IBM y Oracle. La razón esencial de este fenómeno es que, impulsados ​​por los gigantes de Internet, los clientes de los gigantes tradicionales de TI generalmente han comenzado a participar en negocios de comercio electrónico. Precisamente porque los clientes han ingresado a Internet, los gigantes tradicionales de TI se han visto arrastrados a regañadientes al negocio. Campo de Internet. Si no obtienen acceso a Internet, su negocio se reducirá. Por lo tanto, la tercera generación de gigantes de TI pueden ser empresas de TI que integren 2B y 2C.

2) La connotación central de big data

Aunque el concepto de big data es muy popular, pocas personas entienden realmente el contenido central de big data. Un malentendido común y grave es: big data = big data, es decir, big data significa grandes cantidades de datos. De hecho, además del significado literal de grandes cantidades de datos, big data tiene dos características más importantes:

1) Fusión cruzada de datos entre dominios. El aumento de la cantidad de datos en un mismo campo es un efecto aditivo, y la fusión de datos en diferentes campos es un efecto multiplicativo

2) El flujo de datos. Los datos deben fluir y el flujo genera valor

Para el punto 1), los resultados experimentales del Centro de Investigación del Sistema de Recomendación de Baidu muestran que Baidu Company tiene 3 clientes, que son empresas de comercio electrónico dedicadas a la venta de ropa y cosméticos. y equipaje Brindar servicios personalizados de recomendación de productos a estos tres clientes, es decir, aprovechar las preferencias del usuario por puntos porcentuales y mostrar diferentes prendas, cosméticos o bolsos a diferentes usuarios cuando visitan el mismo sitio web de comercio electrónico, mejorando así el comercio electrónico. tasa de conversión del comercio y precio unitario de la base de clientes. Hemos hecho dos pruebas:

a) Aislar los datos de cada sitio web. Cuando la cantidad de datos de cada sitio web aumenta a 4 veces la cantidad anterior, el efecto de recomendación se puede incrementar en aproximadamente un 5%;

b) Algún tipo de fusión de los datos de los tres sitios web después de eliminar información confidencial información. Los datos fusionados son aproximadamente 3 veces los datos de un solo sitio web, que es menos que la cantidad de datos en el primer caso. Sin embargo, cuando los datos fusionados se utilizan para la minería de datos, el efecto de recomendación se puede mejorar en un 30% y los productos recomendados no han cambiado. Todavía lo son: cuando los usuarios visitan sitios web de ropa, solo ven ropa cuando visitan. En los sitios web de cosméticos, solo ven cosméticos, y cuando van a sitios web de equipaje, solo ven ropa. Yo solo vi bolsas.

Para explicarlo con más detalle, el experimento anterior ilustra: Para un mismo consumidor, si queremos recomendarle ropa. El primer método es predecir la ropa que podrá comprar a continuación en función de sus últimas 4 compras de ropa; el segundo método es predecir en función de su última compra de ropa, cosméticos y bolsos. Ropa que podría comprar a continuación. . El número de filas de usuario según los dos métodos es 4 y 3 respectivamente, pero el segundo método funciona significativamente mejor.

Con respecto al punto 2), de hecho, cuando las empresas tradicionales comenzaron a construir almacenes de datos hace más de 10 años, los profesionales del almacén de datos a menudo enfatizaron un punto: el objetivo de los almacenes de datos a nivel empresarial es permitir que los datos diferentes departamentos fluyan. Si los datos departamentales están fragmentados, no se puede ejercer el valor de los datos. En la era actual de Internet, hemos descubierto que incluso si una empresa ha conectado datos entre varios departamentos internos, la cantidad de datos sigue siendo muy pequeña en comparación con toda Internet. Los datos deberían utilizar Internet como medio para fluir entre empresas de alguna forma. . Refiriéndose al concepto de "almacén de datos a nivel empresarial", ahora ha comenzado a surgir el concepto de "almacén de datos de Internet": es decir, las empresas integran sus propios datos externos e internos a través de canales de Internet para formar un "almacén de datos de Internet". .

Percent ha construido con éxito la "Alianza de Datos Abiertos" en los campos minorista y de medios. Los miembros de la alianza pueden construir su propio "almacén de datos de Internet" basado en la alianza de manera justa y segura, disfrutando así del valor de los datos masivos.

3) Campos de aplicación del big data

El origen del big data se atribuye a Internet y al comercio electrónico, pero las mayores perspectivas de aplicación del big data se encuentran en las industrias tradicionales. En primer lugar, porque casi todas las industrias tradicionales se están basando en Internet y, en segundo lugar, porque las industrias tradicionales todavía representan la gran mayoría del PIB del país.

¿Qué empresas tradicionales necesitan más servicios de big data? Existen al menos 3 tipos de empresas:

1) Empresas que brindan productos o servicios a una gran cantidad de consumidores

2) Empresas de cola mediana y larga que operan una pequeña pero hermoso modelo

3) Empresas tradicionales que deben transformarse bajo la presión de Internet

Categoría 1) Las empresas necesitan utilizar big data para analizar con precisión las preferencias de diferentes consumidores y mejorar la calidad de marketing y servicios; Categoría 1) empresas Todas necesitan utilizar análisis de big data para localizar con precisión su base de clientes. Tipo 3) las empresas se refieren principalmente a empresas tradicionales que están siendo impactadas por nuevos jugadores de Internet. Internet y big data como herramientas para la autoevolución. Por supuesto, las empresas del tipo 3) se superponen con los dos primeros tipos de empresas.

Específicamente, las industrias en China que más necesitan servicios de big data son las que se han visto más afectadas por Internet. La primera es la industria minorista fuera de línea y la segunda es la industria financiera.

Afectados por el comercio electrónico, muchos gigantes minoristas nacionales han experimentado una grave desaceleración en el crecimiento, o incluso han experimentado un crecimiento negativo. El comercio minorista fuera de línea ha llegado a un punto de crisis en el que tiene que cambiar. También hemos visto gigantes tradicionales innovadores como los grandes almacenes Intime, los grandes almacenes Wangfujing y Wanda Group comenzar a utilizar Internet y big data para transformar el comercio fuera de línea. Entre ellos, vale la pena aprender de la innovación de los grandes almacenes Yintai de utilizar teléfonos móviles como operador y utilizar métodos O2O para la extracción de datos de doble línea.

La industria financiera es aún más especial: la industria financiera no vende ningún producto físico. Ha sido una industria basada en datos desde su nacimiento. Debido a la regulación estatal, la industria financiera ha disfrutado de muy buenos dividendos políticos en los últimos años y ha carecido de motivación para el cambio interno. En la actualidad, la industria financiera ha comenzado gradualmente a desregularse y las instituciones financieras emergentes seguramente utilizarán Internet y herramientas de big data para lanzar feroces ataques contra los gigantes financieros tradicionales. Sin embargo, las instituciones financieras tradicionales tienen una acumulación de tecnología y datos insuficiente en Internet para responder rápidamente a los desafíos de los nuevos participantes, inevitablemente necesitarán servicios de big data. También hemos visto que el Centro de tarjetas de crédito de China CITIC Bank y el Centro de tarjetas de crédito de China Merchants Bank han comenzado a utilizar big data de Internet para innovar.

Entonces, ¿qué tipo de servicios de big data necesitan las industrias tradicionales? Esto incluye principalmente 3 capas:

1) Aplicaciones verticales de la industria basadas en big data. Cada industria tiene sus propias características, por lo que, naturalmente, habrá demandas de aplicaciones industriales;

2) Clasificación de etiquetas de clientes y etiquetas de productos. Independientemente de la industria, es necesario refinar y organizar las etiquetas de atributos de los clientes y las etiquetas de atributos de los productos, y estas etiquetas deben poder refinarse para clientes y productos individuales. Las etiquetas son la base de las aplicaciones industriales;

3) Integración y gestión de datos internos y externos dentro de la empresa. Para etiquetar clientes y productos, primero es necesario integrar los datos internos y externos de la empresa, especialmente los cada vez más importantes y enormes datos externos.

Figura: Servicios de big data que necesitan las empresas tradicionales

Los métodos de capa 3 y capa 2 son relativamente comunes y tienen relativamente pocas especificidades industriales. Percent ya ha fabricado productos relativamente maduros en la tercera y segunda capa, y también ha comenzado a fabricar algunos productos de aplicaciones industriales específicas en la primera capa, como sistemas de combinación de moda para la industria de la confección.

4) La dirección del desarrollo del big data

¿En qué dirección se desarrollará la industria del big data en el futuro? A medida que los datos se conviertan gradualmente en un activo de las empresas, la industria de los datos se desarrollará hacia el modelo de cadena de suministro de las empresas tradicionales y eventualmente formará una "cadena de suministro de datos".

Tomemos como ejemplo la industria del acero. Las empresas de mineral de hierro extraen el mineral de las minas, lo procesan en bruto y lo venden a las empresas siderúrgicas. Luego realizan un procesamiento más refinado y venden placas y barras de acero a estas empresas manufactureras. Las empresas fabrican automóviles, aviones, puertas, ventanas, computadoras y otros productos y los venden a empresas transformadoras. Hay muchos eslabones en esta cadena industrial, como la prospección, el transporte y el procesamiento de minerales, y cada eslabón tiene una empresa correspondiente.

Figura: Cadena de suministro de empresas tradicionales

En la "cadena de suministro de datos", hay tres eslabones principales: datos, herramientas de minería e integración de datos, y aplicaciones de datos. Los datos son como el mineral en una mina; la integración de datos y las herramientas de minería son como hornos de fundición en plantas siderúrgicas; y las aplicaciones de datos, como el marketing de precisión y la combinación de ropa, son como automóviles, computadoras y otros productos que pueden venderse a los consumidores. Las empresas necesitan servicios profesionales en todos los aspectos del suministro de datos, la integración y extracción de datos y la aplicación de datos. Hay dos fenómenos evidentes aquí en particular:

1) La importancia de los datos externos supera cada vez más a la de los datos internos. En la era de Internet interconectada, los datos internos de una sola empresa son solo una gota en el océano en comparación con todos los datos de Internet.

2) Empresas que pueden proporcionar servicios multienlace, incluido el suministro de datos y la integración de datos; y procesamiento, aplicación de datos, etc. Habrá ventajas competitivas integrales obvias.

5) ¿Qué tipo de empresa de big data ganará?

Los profesionales e inversores de big data a menudo discuten una pregunta con nosotros: en la industria de big data, ¿qué tipo de empresa ganará finalmente? ¿Ganar? Esta es una pregunta difícil de responder, e incluso si se responde, es posible que no se conozca su exactitud hasta dentro de tres a cinco años. Sin embargo, al analizar cada eslabón de la "cadena de suministro de datos", aún podemos sacar algunas conclusiones con valor de referencia.

1) Suministro de datos. En una era en la que Internet no era popular, los datos utilizados por las empresas para construir almacenes de datos, inteligencia empresarial, extracción de datos y otros sistemas procedían básicamente de la empresa. Las empresas difícilmente podían obtener datos externos, por lo que había pocos proveedores de datos profesionales. Internet ha cambiado esta situación y en el futuro habrá proveedores de datos profesionales. Pero dado que la aparición de Internet ha llevado a la aparición de proveedores de datos, estos, a su vez, deben tener fuertes genes de Internet.

2) Integración y minería de datos; Los proveedores de herramientas de minería de datos existen desde la era sin Internet. Sin embargo, en la era de Internet, la cantidad de datos en las empresas ha aumentado considerablemente y los tipos de datos han experimentado grandes cambios (a diferencia de los datos estructurados tradicionales de un solo campo, los datos de Internet son principalmente datos no estructurados de dominios cruzados). suministro de herramientas Ha sido difícil adaptarse a la tecnología y métodos del negocio. Para mantenerse al día con los cambios de los tiempos, los proveedores de aplicaciones de herramientas y tecnología de minería de datos deben tener las capacidades masivas de procesamiento y minería de datos de las empresas de Internet;

3) Aplicación de datos. Las aplicaciones industriales específicas están estrechamente relacionadas con los negocios de las industrias tradicionales. Para hacer un buen trabajo en aplicaciones industriales, es mejor tener experiencia en el servicio de industrias tradicionales y comprender los modelos operativos internos de las industrias tradicionales. En este momento, las empresas con genes de Internet que solo tienen experiencia en 2C son ligeramente insuficientes.

En conjunto, si una empresa de big data tiene capacidades de adquisición de datos de Internet, tecnología de Internet, capacidades de ejecución de Internet y experiencia en servicios 2B, entonces será más fácil para esta empresa obtener una ventaja de liderazgo. En realidad, esta conclusión no sorprende en absoluto: como se mencionó al principio de este artículo, los big data son originalmente el producto de la colisión entre Internet y las industrias tradicionales.

Es demasiado pronto para utilizar la palabra "ascendente" para describir la etapa de desarrollo de la industria de big data. Sólo se puede decir que la industria de big data actual es el comienzo de Xiaohe. Las empresas nacionales están claramente por detrás de las empresas extranjeras en la industria de TI de primera generación (industria de hardware y software); en la industria de TI de segunda generación (industria de Internet), las empresas nacionales no están muy por detrás de las empresas extranjeras e incluso superan a las empresas extranjeras en muchos aspectos; Esperamos que en la ola de la industria de TI de tercera generación (computación en la nube y big data), las empresas nacionales puedan alcanzar y superar por completo a las empresas extranjeras. También creemos que esto es muy posible.