En la era del big data, las estadísticas siguen siendo el alma del análisis de datos
¿Qué son los datos? Datos significa "conocido" en latín y se interpreta en inglés como "una colección de hechos a partir de los cuales se pueden analizar conclusiones". En términos generales, cualquier cosa que esté registrada en un determinado soporte y pueda reflejar cierta información sobre la naturaleza y la sociedad humana puede denominarse datos. Los antiguos "anudaban cuerdas para registrar eventos", y las cuerdas anudadas eran los datos. En la sociedad moderna, el tipo y la cantidad de información son cada vez más abundantes y cada vez hay más portadores. Los números son datos, el texto es datos, las imágenes, el audio, el video, etc. son todos datos.
¿Qué es el big data? El aumento del volumen es la primera comprensión que tiene la gente de los big data. Con el desarrollo de la tecnología, la cantidad de datos en diversos campos está creciendo rápidamente. Un estudio encontró que en los últimos años, la cantidad de datos digitales se ha duplicado aproximadamente cada tres años.
Otra de las características del big data es la diversidad de datos. Como señala un informe de investigación de Gartner, la explosión de datos es tridimensional y tridimensional. El llamado tridimensional se refiere no solo al rápido crecimiento del volumen de datos, sino también a la aceleración del crecimiento de los datos y la diversidad de los datos, es decir, el aumento continuo de las fuentes y tipos de datos.
Del dato al big data no es sólo una acumulación de cantidad, sino también un salto cualitativo. Se pueden integrar y analizar fácilmente cantidades masivas de datos de diferentes fuentes, en diferentes formas y que contienen información diferente, y los datos originalmente aislados se interconectan. Esto permite a las personas descubrir nuevos conocimientos y crear nuevo valor a través del análisis de datos, lo cual es difícil de descubrir en la era de los datos pequeños.
Investigar patrones y descubrir patrones a través de datos ha estado a lo largo del desarrollo de la sociedad humana. Muchos avances en la historia de las ciencias humanas están directamente relacionados con la recopilación y el análisis de datos, como los inicios de la epidemiología médica moderna. En 1854, estalló una epidemia masiva de cólera en Londres y durante mucho tiempo no hubo forma de controlarla. Un médico utilizó un mapa de puntos para estudiar la relación entre la distribución de los pozos de agua en la zona y la distribución de los pacientes de cólera. Descubrió que la incidencia del cólera alrededor de un pozo era significativamente mayor y, por tanto, encontró la causa del brote de cólera: un pozo contaminado. Después del cierre del pozo, la incidencia del cólera disminuyó significativamente. Este enfoque encarna el poder de los datos.
En esencia, muchas actividades científicas son minería de datos, no parten de teorías o principios preestablecidos y estudian problemas mediante la deducción, sino que parten de los datos mismos y los resumen mediante la ley de inducción. Desde los tiempos modernos, a medida que los problemas que enfrentamos se han vuelto cada vez más complejos, a menudo se ha vuelto difícil estudiar los problemas mediante métodos deductivos. Esto hace que la inducción de datos sea cada vez más importante y la importancia de los datos se vuelva cada vez más destacada.
Los macrodatos son un recurso no competitivo que ayuda a los gobiernos a tomar decisiones científicas y a las empresas a realizar un marketing preciso.
En la era del big data, el importante papel de los datos se ha vuelto más prominente. y muchos países han elevado el big data a la altura de la estrategia nacional.
El uso racional de big data por parte del gobierno para guiar la toma de decisiones se basará en hechos empíricos, y la toma de decisiones del gobierno será más predecible, responsable y abierta. En la antigua China, se hacía hincapié en los datos a la hora de gobernar el país. Por ejemplo, Shang Yang dijo: "Para fortalecer un país, sabes el número de trece... Si quieres fortalecer el país, no lo sabes. el número de trece, aunque la tierra sea buena y la gente sea mucha, el país será débil y debilitado." En la era del big data, la gobernanza que sigue el "número" será más eficaz. En la era de los datos pequeños, las decisiones gubernamentales se basan más en la experiencia y los datos locales, y es inevitable tratar los dolores de cabeza y dolores. Por ejemplo, si el tráfico está congestionado, se deberían construir más carreteras. En la era del big data, la toma de decisiones gubernamentales puede pasar de extensiva a intensiva. Si la carretera está bloqueada, puede utilizar el análisis de big data para saber qué período de tiempo y qué tramo de la carretera es más probable que se bloquee, o construir más carreteras cerca de esta sección, o proporcionar alertas tempranas para guiar a los residentes a organizar sus viajes de manera razonable. y para lograr una asignación y control óptimos del flujo de tráfico, mejorar las condiciones del tráfico.
Para los comerciantes, el big data hace posible el marketing de precisión. Una historia interesante es el fenómeno "cerveza, pañales" en Walmart. Cuando Walmart analizó los datos de ventas, descubrió que el producto que aparecía con mayor frecuencia en las listas de consumo de los clientes junto con los pañales era la cerveza. Después de una investigación de seguimiento, descubrimos que muchos padres jóvenes compran algo de cerveza cuando compran pañales. Después de que Wal-Mart descubrió este patrón, cooperó con la promoción de cerveza y pañales, y las ventas aumentaron significativamente. En la era del big data, todo el mundo proporcionará datos "espontáneamente".
Nuestras acciones como hacer clic en páginas web, usar teléfonos móviles, pasar tarjetas de crédito, mirar televisión, tomar el metro, conducir, etc. generarán datos y quedarán registrados información como nuestro género, ocupación, preferencias y poder adquisitivo. extraídos por los comerciantes para analizar oportunidades de negocio.
El big data también beneficiará a los particulares. Desde una perspectiva biológica y médica, los biólogos solían poder observar su impacto en los organismos manipulando uno o varios genes, y era difícil encontrar correlaciones generales. Ahora, debido al desarrollo de la ciencia y la tecnología, se pueden analizar muchas cosas, como información genética, información de expresión de todos los genes, información del árbol genealógico de proteínas, información de metilación de todo el genoma, información epigenética, etc. También hay datos sobre indicadores de salud personal, registros médicos, reacciones a medicamentos y más. Si realmente podemos realizar la integración orgánica de datos biológicos multidimensionales y multifacéticos, podremos describir completamente al individuo y lograr el objetivo de la medicina de precisión.
En la era del big data, también existen medios más eficaces para auditar la autenticidad de los datos. Una de las características del big data es la diversidad. Existe una cierta correlación entre datos de diferentes fuentes y diferentes dimensiones, que pueden validarse de forma cruzada. Por ejemplo, se informó falsamente que el valor de la producción industrial de un determinado lugar se había duplicado, pero el consumo de electricidad y energía no alcanzó la escala correspondiente. Se trata de una anomalía en los datos y el sistema la reconoce fácilmente. Una vez descubiertas las anomalías, los departamentos pertinentes pueden revisar los datos para prevenir y combatir el fraude de datos de una manera más específica.
Los datos son un recurso, pero son diferentes de los recursos materiales como el carbón y el petróleo. Los recursos materiales no son renovables. Si tú los usas más, otros usarán menos, por lo que es difícil utilizarlos. Los datos se pueden reutilizar para generar continuamente nuevo valor. La utilización de recursos de big data es un requisito previo para una competencia no cruel y un disfrute pleno, y puede crear una situación en la que todos salgan ganando. Desde otra perspectiva, si los datos no están integrados y vinculados, no se les puede llamar big data.
Los big data no se pueden utilizar directamente, las estadísticas siguen siendo el alma del análisis de datos
Existe un dicho popular que dice que en la era del big data, "muestra = todo", lo que la gente get no es una muestra de los datos, sino los datos completos. Por lo tanto, solo se necesitan estadísticas simples para sacar conclusiones y ya no se necesitan métodos estadísticos complejos.
En mi opinión, esta visión es completamente errónea. En primer lugar, los macrodatos pueden proporcionar información pero no pueden explicarla. Por ejemplo, big data es "petróleo crudo" en lugar de "gasolina" y no se puede utilizar directamente. Al igual que el mercado de valores, incluso si se publican todos los datos, las personas que no los entienden todavía no saben lo que representan. En la era del big data, las estadísticas siguen siendo el alma del análisis de datos. Como señaló el profesor Michael Jordan de la Universidad de California, Berkeley: "La investigación de big data sin una ciencia de datos sistemática como guía es como construir puentes sin utilizar el conocimiento de las ciencias de la ingeniería. Muchos puentes pueden colapsar, causando graves consecuencias".
En segundo lugar, el concepto de datos completos en sí mismo es difícil de soportar un escrutinio. Por definición, los datos totales son todos los datos. En determinadas situaciones y para determinados problemas, esto es realmente posible. Por ejemplo, si desea comparar las habilidades matemáticas integrales de los estudiantes de las Universidades de Tsinghua y de Pekín, puede recopilar datos sobre las puntuaciones de matemáticas en los exámenes de ingreso a la universidad de los estudiantes de las dos escuelas como objeto de investigación. En cierto sentido, estos son datos completos. Sin embargo, esto no quita que podamos responder bien a la pregunta con estos datos completos.
Por un lado, aunque son datos completos, aún existen incertidumbres. Los puntajes de matemáticas al momento de la admisión no necesariamente representan completamente la capacidad matemática del estudiante. Si todos los estudiantes volvieran a tomar el examen de ingreso, casi todos los estudiantes obtendrían una nueva puntuación. Las conclusiones pueden cambiar si estos dos conjuntos de datos completos se analizan por separado. Por otro lado, las cosas se desarrollan y cambian constantemente, y las calificaciones de los estudiantes cuando ingresan a la escuela no representan sus habilidades actuales. Los datos sobre el desempeño de todos los estudiantes en un examen de ingreso son solo datos completos para ese examen. "Todo" tiene un límite. Más allá de este límite, "todo" ya no es omnisciente ni omnipotente. El desarrollo de las cosas está lleno de incertidumbres, y la estadística no sólo estudia cómo extraer información y patrones de los datos y encontrar soluciones óptimas, sino que también estudia cómo cuantificar las incertidumbres en los datos;
Por lo tanto, en la era de los grandes datos, muchas cuestiones básicas del análisis de datos no son esencialmente diferentes de las de la era de los pequeños datos. Por supuesto, las características del big data plantean nuevos desafíos al análisis de datos. Por ejemplo, cuando se aplican muchos métodos estadísticos tradicionales a big data, la enorme cantidad de cálculo y almacenamiento a menudo es insoportable para datos con estructuras complejas y diversas fuentes, y cómo establecer modelos estadísticos efectivos también requiere nuevas exploraciones e intentos.
Para la ciencia de datos en la nueva era, estos desafíos también significan enormes oportunidades, que pueden conducir a nuevas ideas, métodos y tecnologías.