Cómo dejar que los datos fluyan y aceptarlos
Mi trayectoria de investigación en big data
He estado trabajando en arquitectura móvil y máquina virtual Java durante cuatro o cinco años, y en arquitectura de muchos núcleos y sistemas de programación paralela durante cuatro o cinco años. Se ha puesto al día con la tendencia en cinco años, involucrándose por primera vez en el Internet de las cosas y, en los últimos años, ha comenzado a utilizar big data. La trayectoria de investigación de big data de nuestro equipo se muestra en la siguiente figura:
De 2010 a 2012, el enfoque principal estuvo en la relación entre datos y máquinas: expansión horizontal, tolerancia a fallas, consistencia, software y hardware. codiseñar y, al mismo tiempo, aclarar varios paradigmas informáticos, desde el procesamiento por lotes (MapReduce) hasta la informática en streaming, grandes consultas SQL/ad hoc, informática gráfica, aprendizaje automático, etc. De hecho, nuestro equipo es sólo una parte de los esfuerzos de investigación y desarrollo de big data de Intel. El equipo de Shanghai es la fuerza principal en la distribución de Hadoop de Intel. Ahora Intel se ha convertido en el mayor accionista de Cloudera y ya no produce distribuciones. Sin embargo, la optimización de la plataforma, el soporte de código abierto y las soluciones verticales siguen siendo el foco de la investigación y el desarrollo de big data de Intel. .
Desde 2013, hemos estado prestando atención a la relación entre los datos y las personas: para los científicos de datos, cómo realizar aprendizaje automático distribuido, ingeniería de funciones y aprendizaje no supervisado, para expertos en el dominio, cómo realizar herramientas de análisis interactivo; ; para usuarios finales, cómo crear herramientas de visualización interactivas. Intel Research ha desarrollado GraphLab y Stale Synchronous Parallelism en el centro de investigación respaldado por la Universidad Carnegie Mellon, visualización interactiva y análisis de big data en SciDB en el centro de investigación del MIT, y Spark SQL y MLlib (Biblioteca de aprendizaje automático), y ahora también incursiona en profundidad. Algoritmos de aprendizaje e infraestructura.
En 2014, nos centramos en analizar la relación entre los datos: originalmente nos centramos en el código abierto, pero luego descubrimos que el código abierto es solo una parte de la innovación abierta. Para lograr la innovación abierta en big data, también lo hicimos. Necesito hacer apertura de datos, apertura de la infraestructura de big data y apertura de las capacidades de extracción de valor.
El mar oscuro y las externalidades de los datos
La imagen a continuación es muy interesante. La parte amarilla son datos a nivel fósil, es decir, datos sin conexiones y sin digitalización. datos Están todos en este mar. Solo los datos sobre el nivel del mar (algunas personas los llaman Surface Web) son datos a los que todos pueden acceder, los rastreadores pueden rastrear y los motores de búsqueda pueden recuperar, y la mayoría de los datos están en el mar oscuro (en consecuencia, llamado Dark Web). Se dice que esta parte de los datos representa más del 85% del total de datos. Estos datos se encuentran en algunas islas aisladas, en algunas empresas y gobiernos, y duermen en el suelo.
Los datos son para la sociedad de datos lo que el agua es para la ciudad y la sangre para el cuerpo humano. Las ciudades nacen y se nutren de los ríos. Una vez que la sangre se acumula, el cuerpo estará en peligro. Por lo tanto, para una sociedad que dice estar basada en datos, debemos hacer que los datos fluyan; de lo contrario, esta sociedad perderá muchas funciones importantes.
Así que esperamos que los datos puedan producir efectos químicos como "Golden Wind and Jade Dew". El Sr. Ma Huateng propuso el concepto de Internet, e Intel también tiene un big data X, que equivale a big data multiplicado por varias industrias. Como se muestra en la figura siguiente, además del efecto multiplicador, los datos también tienen un efecto maravilloso llamado externalidad. Por ejemplo, estos datos no me sirven, pero a él le resultan muy útiles. mi veneno y su miel.
Por ejemplo, cuando los datos financieros y los datos del comercio electrónico chocan, se pueden generar finanzas de Internet, como las microfinanzas; cuando los datos de las telecomunicaciones y los datos gubernamentales chocan, se puede generar valor poblacional para ayudar a la planificación urbana de la vida de las personas. los lugares de trabajo y de ocio; los datos financieros y los datos médicos se combinan. McKinsey citó muchos ejemplos de aplicaciones, como la detección de fraudes de seguros y los datos de comercio electrónico se combinan para comprender varios aspectos de los datos y pueden usarse para mejorar la vida de las personas. calidad. Los datos se combinan en uno para comprender el funcionamiento de varios subcampos económicos; los datos logísticos y los datos financieros producen financiación de la cadena de suministro, mientras que los datos financieros y los datos agrícolas también pueden producir algunos efectos químicos. Por ejemplo, varias personas analizadas por Google utilizan datos meteorológicos públicos en los Estados Unidos para construir modelos microclimáticos para cada terreno de cultivo, que pueden predecir desastres y ayudar a los agricultores a asegurar y resolver reclamaciones.
Por lo tanto, debemos tomar el camino de la apertura de datos y permitir que los datos en diferentes campos realmente fluyan e integren, para liberar el valor del big data.
Tres conceptos de apertura
1. Apertura de datos
El primero es la apertura de datos en un sentido estricto. Los principales sujetos de la apertura de datos son el gobierno y las instituciones de investigación científica, y se deben abrir los datos gubernamentales no confidenciales y los datos de investigación científica. Ahora hay algunas empresas que están dispuestas a abrir sus datos, como Netflix y algunos operadores de telecomunicaciones, para ayudarles a obtener valor de los datos y construir ecosistemas. Pero los datos abiertos no significan información abierta. En primer lugar, los datos no equivalen a información. La información es algo que se extrae de los datos. Esperamos que el primero sea abrir los datos originales y el segundo sea una apertura proactiva y gratuita. A menudo escuchamos que debemos solicitar la divulgación de información, que es una apertura pasiva.
Para garantizar la calidad de los datos, Tim Berners-Lee propuso un estándar de cinco estrellas para la apertura de datos: una estrella es un formato abierto autorizado, como PDF, la segunda estrella es estructurada; convertir datos de archivos en tablas, como Excel; la tercera estrella es un formato abierto, como CSV; la cuarta estrella es que cada elemento de datos se puede encontrar a través de URI; la quinta estrella significa que se puede vincular a otros datos; un gráfico de datos abiertos; la quinta estrella representa la capacidad de abrir datos al público.
Cinco estrellas representan la capacidad de vincularse con otros datos para formar gráficos de datos abiertos; cinco estrellas representan la capacidad de abrir datos al público.
Los principales portales de datos abiertos actuales (como data.dov o data.gov.uk) se basan en software de código abierto. El Centro de Investigación Intel Big Data del MIT también produjo un formulario llamado Datahub: la mascota es interesante, mitad elefante representa la tecnología de bases de datos, mitad pulpo, tomada de la mascota de github, Octopus Cat. Proporciona más funciones, como facilidad de gestión, servicios de datos estructurados y control de acceso, gestión del intercambio de datos y, al mismo tiempo, permite la visualización y el análisis in situ.
Los datos abiertos en un sentido amplio también incluyen el disfrute y las transacciones de datos, como el disfrute de datos entre pares o las transacciones de datos en plataformas multilaterales. Marx dijo que la propiedad de los medios de producción es la base de la economía, pero ahora se puede encontrar que el arrendamiento de los medios de producción se ha convertido en una corriente principal (consulte Lean Startup en el escenario de datos, no necesariamente). Poseer los datos, o incluso usarlos, todo el conjunto de datos, pero puedo alquilarlos. El proceso de arrendamiento garantiza los derechos sobre los datos.
En primer lugar, puedo crear datos para que los uses, pero no puedo mostrártelos. El Sr. Yao Qizhi, de 82 años, propuso el "dilema del millonario". Dos millonarios son más ricos que el otro y ninguno de los dos está dispuesto a decir cuánto dinero tienen. Este es un ejemplo típico de "disponible pero no visible". Escenarios "disponibles pero invisibles" Hay muchos ejemplos de este tipo en la vida real, como que el Departamento de Seguridad Nacional de EE. UU. (DHS) tiene una lista de terroristas (Datos 1), aerolíneas que tienen registros de vuelos de pasajeros (Datos 2), Departamento de Seguridad Nacional. El Departamento de Seguridad Nacional quería obtener los registros de vuelo de los pasajeros de la aerolínea, pero la aerolínea se negó a hacerlo por motivos de privacidad. A su vez, quería obtener la lista de terroristas del Departamento de Seguridad Nacional, pero eso no fue posible. porque era un secreto nacional.
Ambas partes están dispuestas a descubrir terroristas, pero ninguna está dispuesta a proporcionar datos. ¿Existe alguna manera de unir los Datos 1 y los Datos 2 para su investigación garantizando al mismo tiempo la seguridad de los datos?
En segundo lugar, debe haber una auditoría durante el uso de los datos. ¿Qué pasa si el escáner oculta los datos en secreto y luego los devuelve? Además, es necesario que exista un mecanismo de fijación de precios de datos. El valor de los datos entre las dos partes no debe ser igual y los conocimientos generados tienen diferentes usos para cada parte. Por lo tanto, es necesario que haya un precio que sea más motivador. que hervir datos en una olla.
Del disfrute de datos punto a punto a las transacciones de datos multilaterales, de los servicios de datos de uno a muchos a los mercados de datos de muchos a muchos, y luego al intercambio de datos. Si el mercado de datos actual se trata más de la compra y venta de conjuntos de datos, entonces el intercambio de datos es un mercado basado en el descubrimiento de valor y la fijación de precios, como una bolsa de valores, para transacciones de datos de lotes pequeños y de alta frecuencia.
Apoyamos una gran cantidad de investigaciones para habilitar las funciones anteriores, como estar disponible pero invisible. El caso 1 se implementa cifrando la base de datos CryptDB/Monomi. Por parte del propietario de los datos, la base de datos está completamente cifrada. Esto en realidad evita muchos problemas de fuga de datos que están ocurriendo ahora, como habrá escuchado, los proveedores de servicios de Internet son empleados en secreto. saca los datos y los vende. Una vez que los cifra, es inútil que los saque nuevamente. En segundo lugar, esta base de datos cifrada puede ejecutar el programa SQL ordinario de la Parte B, porque utiliza cifrado homomórfico y cifrado de cebolla, y algunas semánticas de SQL se pueden ejecutar en el texto cifrado.
Para "El dilema del millonario" utilizamos otra tecnología disponible pero invisible, el Data Café. Como todos sabemos, las cafeterías son lugares donde las personas chocan, y los cafés de datos son donde datos y datos chocan para crear nuevos valores.
Por ejemplo, dos empresas de comercio electrónico, una vende ropa y la otra vende cosméticos, tienen conocimientos relativamente limitados sobre sus clientes. Si los datos de ambas partes se analizan juntos, se puede obtener un retrato completo del usuario. . Para poner otro ejemplo, el cáncer es una enfermedad de cola larga con demasiadas mutaciones genéticas, y las muestras del genoma de cada institución de investigación son relativamente limitadas, lo que explica en parte por qué la tasa de curación del cáncer sólo ha aumentado en 8 en los últimos 50 años. Luego, reunir datos de múltiples instituciones de investigación en una cafetería también puede acelerar la investigación del cáncer.
La parte inferior del café se basa en tecnología informática segura multipartita investigada conjuntamente por Intel y la Universidad de Berkeley. Además de esto, está Spark, seguro y confiable, que utiliza auditorías basadas en "linaje de datos" para fijar el precio de los resultados en función de la contribución de los datos de cada parte a los resultados.
2. La apertura de la infraestructura de big data
Algunas personas ahora piensan en big data, pero están muy ansiosas y no pueden darse el lujo de jugar con big data. No entienden cómo hacerlo. almacenar y procesar estos grandes datos requiere computación en la nube. Infraestructura abierta o Plataforma como Servicio tradicional, como MapReduce de Amazon AWS y Big Query de Google. Estas plataformas básicas de procesamiento y análisis de big data pueden reducir el umbral para los pensadores de datos y dar rienda suelta a su creatividad.
Por ejemplo, Decide.com recopila cientos de miles de datos cada día, analiza información de precios (estructurada y no estructurada) y luego te dice qué marca de producto debes comprar y cuándo es el mejor momento. para comprarlo. Otra empresa que también utiliza AWS es Prismatic, una empresa de recomendación de lectura personalizada. Miré específicamente sus bibliotecas de gráficos computacionales, almacenamiento y alto rendimiento, todas escritas en Clojure (una variante de LISP). En realidad, sólo hay tres estudiantes realizando trabajos técnicos.
Entonces, cuando estas infraestructuras se socialicen, llegará la primavera de los pensadores del big data.
3. Abrir capacidades de minería de valor
El modelo actual suele ser el de una sola empresa o uno a muchos.
Tomemos como ejemplo a Tesco y Dunnhumby. Esta última comenzó como una empresa muy pequeña. Se acercaron a Tesco para desarrollar un programa de fidelización de clientes y lo han estado haciendo durante décadas. Los servicios de análisis de datos son a largo plazo y la toma de decisiones está más enfocada al largo plazo. Por supuesto, DHgate ya no es una empresa pequeña. También proporciona servicios de análisis de datos a otras grandes empresas.
El típico representante del modelo uno a muchos es Palantir, una empresa fundada por Peter Thiel y varios profesores de la Universidad de Stanford, que todavía es de propiedad privada, pero su valoración se acerca a los 1.500 millones de dólares. Palantir sigue siendo una empresa privada, pero con una valoración de casi 10 mil millones de dólares, es muy buena para brindar servicios de extracción de valor de datos a varios gobiernos e instituciones financieras. Lo que realmente abrió esta capacidad fue Kaggle, que tenía dos caras, con más de 100.000 analistas por un lado y empresas del lado de la demanda por el otro que hacían ofertas por Kaggle y los analistas pujaban para conseguir negocios. Esta puede ser una solución real a las capacidades de extracción de valor de las empresas de cola larga. Por supuesto, si se puede combinar con nuestro café de datos, el efecto será aún mejor.