¿Cómo obtienen valor los big data, la computación en la nube, Internet, etc.?
1. El auge del big data indica que la "era de la información" ha entrado en una nueva etapa
(1) El big data debe verse con una perspectiva histórica
La era de la información es relativa Un largo período de tiempo en términos de las eras agrícola e industrial. Existen diferencias obvias en los factores de producción y las fuerzas impulsoras del desarrollo social en diferentes épocas. Los inventos tecnológicos característicos de la era de la información son las computadoras digitales, los circuitos integrados, las comunicaciones por fibra óptica e Internet (World Wide Web). Aunque se habla mucho sobre la "era de los grandes datos" en los medios, las nuevas tecnologías como los grandes datos y la computación en la nube aún no han experimentado avances tecnológicos comparables a los inventos tecnológicos que hicieron época antes mencionados, y es difícil constituyen una nueva era más allá de la era de la información. La era de la información se puede dividir en varias etapas. La aplicación de nuevas tecnologías como el big data marca el inicio de una nueva etapa de la sociedad de la información.
Al examinar y analizar la historia de más de 100 años, podemos encontrar que existen muchas similitudes entre los patrones de desarrollo de la era de la información y la era industrial. El proceso de mejora de la productividad en la era de la electrificación es sorprendentemente similar al de la era de la información. Sólo se lograron mejoras significativas después de 20 a 30 años de reservas de difusión, siendo las líneas divisorias 1915 y 1995 respectivamente. El autor conjetura que después de décadas de difusión de la tecnología de la información, los primeros 30 años del siglo XXI pueden ser un período dorado para que la tecnología de la información mejore la productividad.
(2) Comprenda los "grandes datos" desde la perspectiva de la "nueva etapa de la era de la información"
China ha comenzado a entrar en la era de la información, pero la mente de muchas personas todavía está atrapados en la era industrial. La causa fundamental de muchos problemas que surgen en el trabajo económico, científico y tecnológico es una comprensión insuficiente de los tiempos. La causa fundamental del atraso y la derrota de China en los siglos XVIII y XIX fue que los gobiernos manchú y Qing no se dieron cuenta de que los tiempos han cambiado y no podemos repetir errores históricos.
Después de que el gobierno central propusiera que China había entrado en la "nueva normalidad" de la economía, ha habido mucha discusión en los medios, pero la mayoría de ellas son explicaciones de la desaceleración del crecimiento económico allí. Hay algunos artículos que analizan la "nueva normalidad" desde la perspectiva de los tiempos cambiantes. El autor cree que la nueva normalidad económica significa que China ha entrado en una nueva etapa en la que la informatización impulsa una nueva industrialización, urbanización y modernización agrícola. Se trata de un salto en la gestión económica y social, no de una medida provisional ni de una regresión.
La "tercera plataforma" de la arquitectura TI compuesta por tecnologías de la información de nueva generación como big data, Internet móvil, redes sociales, computación en la nube e Internet de las cosas es una señal de que la sociedad de la información ha entrado una nueva etapa y tiene un profundo impacto en la transformación de toda la economía. Internet, los creadores, la "segunda revolución de las máquinas", la "industria 4.0", etc. que aparecen a menudo en los medios están todos relacionados con el big data y la computación en la nube. Los macrodatos y la computación en la nube son nuevas palancas para mejorar la productividad en la nueva normalidad. El llamado desarrollo impulsado por la innovación se basa principalmente en la tecnología de la información para promover mejoras en la productividad.
(3) Los macrodatos pueden ser un gran avance para la industria de la información de China, desde el seguimiento hasta el liderazgo.
Las empresas chinas de big data ya tienen una base bastante buena. China ocupa 4 de las 10 principales empresas de servicios de Internet del mundo (Alibaba, Tencent, Baidu y JD.com). Las otras 6 principales empresas de servicios de Internet son todas empresas estadounidenses. Ninguna empresa de Internet en Europa y Japón se encuentra entre las 10 principales. . Esto demuestra que las empresas chinas ya están a la vanguardia mundial en el negocio de servicios de Internet basados en big data. En términos de desarrollo de tecnología de big data, nuestro país puede cambiar la situación en la que la tecnología ha sido controlada por otros en los últimos 30 años. En la aplicación de big data, China puede desempeñar un papel de liderazgo en el mundo.
Sin embargo, el hecho de que la escala de las empresas esté a la vanguardia del mundo no significa que nuestro país sea líder en tecnología de big data. De hecho, ninguna de las principales tecnologías de big data actualmente populares en el mundo fue pionera en nuestro país. Las comunidades de código abierto y el crowdsourcing son formas importantes de desarrollar la tecnología y la industria de big data, pero nuestra contribución a la comunidad de código abierto es muy pequeña. Entre los casi 10,000 voluntarios centrales de la comunidad en todo el mundo, puede haber menos de 200 en nuestro país. Debemos aprender de la experiencia pasada de investigación básica insuficiente para proporcionar a las empresas tecnologías centrales, fortalecer la investigación básica sobre big data y la investigación tecnológica con visión de futuro, y esforzarnos por conquistar las tecnologías centrales y clave de big data.
2. Comprender big data requiere ascender al nivel de la cultura y la epistemología
(1) La cultura de datos es una cultura avanzada
La esencia de la cultura de datos es respeto En el espíritu de buscar la verdad a partir de los hechos en el mundo objetivo, los datos son hechos. Prestar atención a los datos significa enfatizar el espíritu científico de hablar con hechos y pensamiento racional. El hábito tradicional del pueblo chino es el pensamiento cualitativo más que el cuantitativo. En la actualidad, muchas ciudades están llevando a cabo trabajos de apertura e intercambio de datos gubernamentales, pero se descubre que la mayoría de la gente no está interesada en los datos que el gobierno quiere abrir.
Para poner los big data en una vía de desarrollo saludable, primero debemos promover vigorosamente la cultura de los datos. La cultura de datos mencionada en este artículo no es solo el uso de big data en industrias culturales como la literatura, el arte y las publicaciones, sino que también se refiere a la conciencia de datos de toda la gente. Toda la sociedad debe darse cuenta de que: el núcleo de la informatización son los datos. Sólo cuando el gobierno y el público presten atención a los datos se podrá comprender verdaderamente la esencia de la informatización: los datos son un nuevo factor de producción y el uso de big data puede cambiar; Métodos tradicionales como el capital y la tierra. El peso de los factores en la economía.
Algunas personas resumen la "Danza de Dios y los datos" como una de las características de la cultura estadounidense. Dicen que los estadounidenses tienen tanto la sinceridad hacia Dios como la racionalidad para buscar la verdad a través de los datos. Estados Unidos ha completado un cambio en la forma de pensar sobre la cultura de los datos desde la Edad Dorada a la Era Progresista. Después de la Guerra Civil, los métodos censales se aplicaron a muchos campos, formando una forma de pensar en el análisis predictivo de datos. En el siglo pasado, la modernización de los Estados Unidos y los países occidentales ha estado estrechamente relacionada con la difusión y penetración de la cultura de los datos. Para lograr la modernización, nuestro país también debe enfatizar la cultura de los datos.
La clave para aumentar la conciencia sobre los datos es comprender la importancia estratégica del big data. Los datos son un recurso estratégico tan importante como el material y la energía. La recopilación y el análisis de datos involucran a todas las industrias y son una tecnología general y estratégica. La transformación de la tecnología dura a la tecnología blanda es la tendencia de desarrollo tecnológico global de hoy, y la tecnología para descubrir valor a partir de los datos es la tecnología blanda más dinámica. El atraso de la tecnología de datos y la industria de los datos nos hará perder la oportunidad de la revolución industrial. por una era.
(2) Comprender big data requiere una epistemología correcta
Históricamente, la investigación científica comenzó con la deducción lógica. Todos los teoremas de la geometría euclidiana pueden derivarse de varios axiomas. A partir de Galileo y Newton, la investigación científica ha prestado más atención a la observación natural y la observación experimental, y las teorías científicas se han perfeccionado mediante métodos inductivos basados en la observación. "La ciencia comienza con la observación" se ha convertido en la corriente principal de la investigación científica y la epistemología. Tanto el empirismo como el racionalismo han hecho contribuciones significativas al desarrollo de la ciencia, pero también han expuesto problemas obvios e incluso han llegado a extremos. Cuando el racionalismo llega al extremo, se convierte en el dogmatismo criticado por Kant; cuando el empirismo llega al extremo, se convierte en escepticismo y agnosticismo.
En la década de 1930, el filósofo alemán Popper propuso un punto de vista epistemológico conocido como "falsificacionismo" por las generaciones posteriores: creía que las teorías científicas no pueden verificarse por inducción y sólo pueden encontrarse mediante contraejemplos experimentales. falsación", por lo que negó que la ciencia comience con la observación y propuso la famosa opinión de que "la ciencia comienza con preguntas" [3]. El falsacionismo tiene sus limitaciones si se siguen estrictamente las reglas de la falsación, teorías importantes como la ley de la gravedad y la teoría atómica pueden ser destruidas por los primeros llamados contraejemplos. Sin embargo, la opinión de que “la ciencia comienza con preguntas” tiene una importancia rectora para el desarrollo actual de la tecnología de big data.
El auge del big data ha desencadenado un nuevo modelo de investigación científica: "La ciencia comienza con los datos". Desde una perspectiva epistemológica, los métodos de análisis de big data están más cerca del empirismo de que “la ciencia comienza con la observación”, pero debemos tener en cuenta las lecciones de la historia y evitar caer en el pozo del empirismo que niega el papel de la teoría. Al enfatizar la "correlación", no dudes de la existencia de "causalidad"; al afirmar la objetividad y neutralidad del big data, no olvides que no importa la escala de los datos, el big data siempre estará sujeto a sus propias limitaciones; y los prejuicios de la gente. No crea en la predicción: "Con la minería de big data, no es necesario hacer ninguna pregunta sobre los datos, los datos generarán conocimiento automáticamente". Ante una enorme cantidad de datos como el mar, la mayor confusión para el personal científico y técnico dedicado a la minería de datos es: ¿cuál es la "aguja" que queremos atrapar? ¿Hay "agujas" en este mar? Es decir, necesitamos saber cuál es el problema a resolver. En este sentido, "la ciencia comienza con datos" y "la ciencia comienza con preguntas" deberían combinarse orgánicamente.
La búsqueda de “razones” es el eterno motor del desarrollo científico. Sin embargo, la búsqueda de razones es interminable y es imposible para los humanos encontrar la "verdad última" en un tiempo limitado. En el proceso de exploración científica, la gente suele explicar el mundo diciendo "ésta es una ley objetiva" y no pregunta inmediatamente por qué existen tales leyes objetivas. En otras palabras, la ciencia tradicional no sólo persigue la causalidad, sino que también puede utilizar leyes objetivas como conclusiones. Los resultados de la investigación de big data son en su mayoría nuevos conocimientos o nuevos modelos. Estos conocimientos y modelos también se pueden utilizar para predecir el futuro y pueden considerarse como un tipo de leyes objetivas locales. En la historia de la ciencia, hay muchos ejemplos de leyes generales descubiertas a través de modelos de datos pequeños, como las leyes del movimiento celeste resumidas por Kepler, mientras que los modelos de datos grandes descubren en su mayoría algunas leyes específicas;
Las leyes de la física son generalmente inevitables, pero los modelos de big data no son necesariamente inevitables ni deducibles. El objeto de la investigación de big data suele ser la psicología humana y la sociedad, que se encuentra en un nivel superior en la escala del conocimiento. Sus límites naturales son confusos, pero tiene características más prácticas. Los investigadores de big data prestan más atención a la unidad del conocimiento y la acción y creen en la teoría de la práctica. La epistemología de big data tiene muchas características que la diferencian de la epistemología tradicional. No podemos negar la naturaleza científica de los métodos de big data debido a sus diferentes características. La investigación de big data desafía la preferencia de la epistemología tradicional por la causalidad, complementa leyes causales únicas con leyes de datos y logra la unificación basada en datos del racionalismo y el empirismo. Una nueva epistemología de big data está tomando forma.
3. Comprender correctamente el valor y los beneficios del big data
(1) El valor del big data se refleja principalmente en su efecto impulsor
La gente siempre espera De Big Data se extrae un "gran valor" inesperado. De hecho, el valor de los big data se refleja principalmente en su efecto impulsor, es decir, impulsa la investigación científica y el desarrollo industrial relevantes, y mejora la capacidad de todos los ámbitos de la vida para resolver problemas difíciles y agregar valor a través del análisis de datos. La contribución de los big data a la economía no se refleja enteramente en los ingresos directos de las empresas de big data. Se debe considerar la contribución a las mejoras de eficiencia y calidad en otras industrias. Big data es una tecnología típica de propósito general. Para comprender la tecnología de propósito general, debemos adoptar el "modelo de las abejas": el principal beneficio de las abejas no es la miel que producen, sino la contribución de la polinización de las abejas a la agricultura.
Von Neumann, uno de los fundadores de las computadoras electrónicas, señaló una vez: "En cada ciencia, al estudiar problemas que son bastante simples en comparación con el objetivo final, desarrollamos algunos problemas que pueden seguir resolviéndose". "Cuando aplicamos los métodos de promoción, este tema ha logrado grandes avances. "No tenemos que esperar milagros todos los días, sino hacer cosas más "bastante simples". El progreso real reside en los esfuerzos prácticos. A los medios les gusta promover algunas historias de éxito sorprendentes sobre big data, y debemos tener la mente clara sobre estos casos. Según Wu Gansha, ingeniero jefe del Intel China Research Institute, reveló en un informe que el llamado caso clásico de minería de datos de "cerveza y pañales" era en realidad una "historia" inventada por un gerente de Teradata Company, que ha Nunca sucedió en la historia [4]. Incluso si existe este caso, no significa que haya magia en el análisis de big data en sí. En big data, hay muchos fenómenos en los que dos cosas aparentemente no relacionadas aparecen al mismo tiempo o una tras otra. El análisis y el razonamiento humanos para descubrir por qué suceden dos cosas que aparecen al mismo tiempo o una tras otra, encontrar la razón correcta es el nuevo conocimiento o la ley recién descubierta en sí misma no tiene mucho valor.
Existe una fábula muy conocida que puede ilustrar el valor del big data desde una perspectiva: antes de morir, un anciano granjero les dijo a sus tres hijos que había enterrado una olla de oro en el suelo de su familia, pero no había Dime dónde enterrarlo.
Sus hijos cavaron profundamente toda la tierra de su familia, pero no encontraron oro. Sin embargo, debido a la profunda excavación de la tierra, las cosechas se cosecharon muy bien. La capacidad de recopilar y analizar datos ha mejorado. Incluso si no se han descubierto leyes universales ni nuevos conocimientos completamente inesperados, el valor del big data se ha ido reflejando gradualmente.
(2) El poder de los big data proviene de la "sabiduría de Dacheng"
Cada fuente de datos tiene ciertas limitaciones y unilateralidad. Sólo fusionando e integrando todos los aspectos de los datos originales es posible. puede reflejar la imagen completa de las cosas. La esencia y las leyes de las cosas están ocultas en la correlación de diversos datos en bruto. Diferentes datos pueden describir la misma entidad, pero desde diferentes perspectivas. Para el mismo problema, diferentes datos pueden proporcionar información complementaria y proporcionar una comprensión más profunda del problema. Por lo tanto, en el análisis de big data, es clave recopilar datos de tantas fuentes como sea posible.
La ciencia de datos es una ciencia que integra matemáticas (estadística, álgebra, topología, etc.), informática, ciencias básicas y diversas ciencias aplicadas, similar a la "Ciencia de la Sabiduría de Dacheng" propuesta por el Sr. Qian Xuesen. [5]. El Sr. Qian señaló: "Sólo reuniendo grandes logros podremos adquirir sabiduría". Que los big data puedan producir sabiduría depende de la integración y fusión de múltiples fuentes de datos. La IEEE Computer Society publicó recientemente un informe de pronóstico de tendencias de desarrollo de tecnología informática para 2014, que se centra en la "inteligencia perfecta". El objetivo del desarrollo de big data es obtener una "inteligencia perfecta" de integración colaborativa. Depender de una sola fuente de datos, incluso si la escala de datos es muy grande, puede llevar a una unilateralidad como "el ciego siente al elefante". La apertura y el intercambio de datos no son la guinda del pastel, sino un requisito previo necesario que determina el éxito o el fracaso del big data.
La investigación y aplicación de big data debe cambiar el pensamiento tradicional de departamentos y disciplinas que en el pasado estaban separados entre sí y se desarrollaban de forma independiente. La atención no se centra en apoyar el desarrollo de una única tecnología y un único método. sino de la colaboración de diferentes departamentos y disciplinas. La ciencia de datos no es una "chimenea" vertical, sino una ciencia integrada horizontalmente como la ciencia ambiental y energética.
(3) Los macrodatos tienen perspectivas brillantes, pero no debemos esperar demasiado en el futuro cercano
Cuando se introdujo la corriente alterna, se utilizó principalmente para la iluminación, y es Es imposible imaginar sus omnipresentes aplicaciones en la actualidad. Lo mismo ocurre con la tecnología de big data. En el futuro, definitivamente producirá muchas aplicaciones en las que no se piensa ahora. No tenemos que preocuparnos por el futuro del big data, pero debemos trabajar de manera muy pragmática en el futuro cercano. La gente tiende a sobreestimar los acontecimientos recientes y subestimar los acontecimientos a largo plazo. Gartner predice que la tecnología de big data se convertirá en una tecnología convencional más comúnmente adoptada en 5 a 10 años. Debemos tener suficiente paciencia para desarrollar tecnología de big data.
El big data, al igual que otras tecnologías de la información, sigue la ley del desarrollo exponencial a lo largo del tiempo. La característica del desarrollo exponencial es que, medido a partir de un período histórico (al menos 30 años), el desarrollo inicial es relativamente lento. Después de un largo período de acumulación (que puede durar más de 20 años), habrá un punto de inflexión. Una vez superado el punto de inflexión, habrá un crecimiento explosivo. Sin embargo, ninguna tecnología mantendrá un crecimiento "exponencial" para siempre. En términos generales, el desarrollo de alta tecnología sigue la curva de madurez tecnológica (ciclo de exageración) descrita por Gartner, y eventualmente puede entrar en un estado estable de desarrollo saludable o morir.
Los problemas que deben resolverse mediante la tecnología de big data son a menudo problemas muy complejos, como la informática social, las ciencias de la vida, las ciencias del cerebro, etc. Estos problemas no pueden resolverse con los esfuerzos de varias generaciones. Se necesitaron decenas de miles de millones de años de evolución para que el universo produjera seres vivos y humanos. Su complejidad e ingenio no tienen paralelo. No esperemos que nuestra generación sea capaz de descubrir por completo sus misterios. Mirando hacia el futuro dentro de millones de años o incluso más, la tecnología de big data es sólo una ola en el largo río del desarrollo científico y tecnológico. No podemos hacernos ilusiones poco realistas sobre los logros científicos que se pueden lograr mediante la investigación de big data en 10 o 20 años. años.
?4. Observe los desafíos que enfrenta la investigación y aplicación de big data desde la perspectiva de la complejidad
La tecnología de big data está estrechamente relacionada con los esfuerzos humanos para explorar la complejidad. En la década de 1970, el surgimiento de las tres nuevas teorías (teoría de la estructura disipativa, teoría de la sinergia y teoría de la catástrofe) desafió el reduccionismo que había impregnado la investigación científica y tecnológica durante cientos de años. En 1984, Gell-Mann y otros tres premios Nobel establecieron el Instituto Santa Fe, que se centra en el estudio de la complejidad. Propusieron el lema de trascender el reduccionismo y desencadenaron un movimiento científico de la complejidad en los círculos científicos y tecnológicos. Aunque el trueno fue fuerte, no ha logrado los resultados esperados en 30 años. Una de las razones puede ser que la tecnología para resolver la complejidad aún no había surgido en ese momento.
El desarrollo de los circuitos integrados, las computadoras y las tecnologías de la comunicación ha mejorado enormemente la capacidad de los seres humanos para estudiar y abordar problemas complejos. La tecnología de big data impulsará las nuevas ideas de la ciencia de la complejidad y puede permitir su implementación. La ciencia de la complejidad es la base científica de la tecnología de big data, y los métodos de big data pueden considerarse como la realización técnica de la ciencia de la complejidad. Los métodos de big data proporcionan un camino de implementación técnica para la unidad dialéctica del reduccionismo y el holismo. La investigación de big data debe nutrirse de la investigación de la complejidad. Los académicos que se dedican a la investigación de la ciencia de datos no sólo deben comprender las "tres nuevas teorías" del siglo XX, sino que también deben aprender teorías relacionadas con los hiperciclos, el caos, los fractales y el conocimiento de los autómatas celulares. amplíe sus horizontes y profundice su comprensión de los mecanismos del big data.
La tecnología de big data aún no está madura. Frente a datos masivos, heterogéneos y que cambian dinámicamente, las tecnologías tradicionales de procesamiento y análisis de datos son difíciles de manejar. Los sistemas de procesamiento de datos existentes tienen poca eficiencia en la implementación de big data. aplicaciones de datos., el costo y el consumo de energía son grandes y es difícil de expandir. La mayoría de estos desafíos provienen de la complejidad de los datos mismos, la complejidad de los cálculos y la complejidad de los sistemas de información.
(1) Los desafíos causados por la complejidad de los datos
Las tareas de análisis de datos, como la recuperación de imágenes y texto, el descubrimiento de temas, el análisis semántico y el análisis de sentimientos, son muy difíciles. Los datos involucran tipos complejos, estructuras complejas y esquemas complejos, los datos en sí tienen un alto nivel de complejidad. En la actualidad, las personas no comprenden el significado físico detrás de big data, no comprenden las reglas de asociación entre datos y no comprenden profundamente la conexión inherente entre la complejidad de big data y la complejidad computacional. comprensión de big data. Descubrimiento de modelos de datos y diseño de métodos computacionales eficientes.
Describir formal o cuantitativamente las características esenciales y los indicadores de medición de la complejidad de los big data requiere un estudio en profundidad del mecanismo intrínseco de la complejidad de los datos. La complejidad del cerebro humano se refleja principalmente en las conexiones entre billones de dendritas y axones, y la complejidad del big data se refleja principalmente en las interconexiones entre datos. Comprender el misterio de la correlación entre los datos puede ser un gran avance para revelar las leyes "emergentes" de lo micro a lo macro. El estudio de las reglas de complejidad de big data ayuda a comprender las características esenciales y el mecanismo de generación de patrones complejos de big data, simplificando así la representación de big data y obteniendo una mejor abstracción del conocimiento. Para ello, es necesario establecer teorías y modelos de distribución de datos bajo relaciones de correlación multimodal, aclarar la relación intrínseca entre la complejidad de los datos y la complejidad computacional y sentar las bases teóricas para la computación de big data.
(2) Desafíos causados por la complejidad computacional
La computación de big data no puede realizar análisis estadísticos y cálculos iterativos de datos globales como pequeños conjuntos de datos de muestra. Al analizar big data, su computabilidad es computacional. La complejidad y los algoritmos de solución deben revisarse y estudiarse. El tamaño de la muestra de big data es enorme, las correlaciones internas son estrechas y complejas y la distribución de la densidad de valores es extremadamente desigual. Estas características plantean desafíos para el establecimiento de un paradigma de computación de big data. Para datos a nivel de petabytes, incluso los cálculos con complejidad lineal son difíciles de implementar y, debido a la escasez de distribución de datos, es posible que se realicen muchos cálculos no válidos.
La complejidad computacional tradicional se refiere a la relación funcional entre el tiempo y el espacio requeridos para resolver un problema y la escala del problema. El llamado algoritmo con complejidad polinómica significa que cuando la escala del problema aumenta, el tiempo de cálculo y el espacio crecen a un ritmo tolerable. El objetivo de la informática científica tradicional es cómo "calcular rápidamente" para una escala determinada de problemas. En las aplicaciones de big data, especialmente en la informática de transmisión, a menudo existen límites claros en el tiempo y el espacio para el procesamiento y análisis de datos. Por ejemplo, si el tiempo de respuesta de un servicio de red excede unos pocos segundos o incluso unos pocos milisegundos, muchos usuarios lo harán. perderse. La esencia de la aplicación de big data es cómo "calcular más" bajo determinadas limitaciones de tiempo y espacio. De "calcular rápido" a "calcular más", la lógica de pensamiento al considerar la complejidad computacional ha cambiado enormemente. El llamado "calcular más" no significa que cuanto mayor sea la cantidad de datos a calcular, mejor es necesario explorar métodos de reducción bajo demanda desde datos suficientes hasta datos valiosos.
Una forma de resolver problemas difíciles basados en big data es renunciar a soluciones universales y encontrar soluciones a problemas específicos basados en restricciones especiales. Los problemas cognitivos humanos son generalmente problemas NP difíciles, pero siempre que haya datos suficientes, se pueden encontrar soluciones muy satisfactorias en condiciones restrictivas. Los importantes avances logrados en los vehículos autónomos en los últimos años son un buen ejemplo. Para reducir la cantidad de cálculo, es necesario estudiar métodos locales de cálculo y aproximación basados en bootstrapping y muestreo, proponer nuevas teorías de algoritmos que no se basen en datos completos y estudiar algoritmos no deterministas adaptados a big data.
(3) Desafíos causados por la complejidad del sistema
Big data plantea requisitos estrictos sobre la eficiencia operativa y el consumo de energía de los sistemas informáticos Las cuestiones de evaluación y optimización del rendimiento de los sistemas de procesamiento de big data. El desafío no es solo aclarar la relación entre la complejidad computacional de big data y la eficiencia del sistema y el consumo de energía, sino también medir de manera integral múltiples factores de rendimiento, como la tasa de rendimiento del sistema, la capacidad de procesamiento paralelo, la precisión del cálculo del trabajo y la energía de la unidad de trabajo. consumo. En vista de las características de escasez de valor de big data y débil localidad de acceso, es necesario estudiar la arquitectura distribuida de almacenamiento y procesamiento de big data.
Las aplicaciones de big data involucran casi todos los campos. La ventaja de big data es que puede encontrar un valor escaso y valioso en aplicaciones de cola larga. Sin embargo, es difícil para una estructura de sistema informático optimizada adaptarse a varios. necesidades, las aplicaciones fragmentadas han aumentado considerablemente la complejidad de los sistemas de información. ¿Cómo pueden las aplicaciones de big data y de Internet de las cosas con tantas especies de insectos (más de 5 millones de especies) formar un mercado enorme como el de los teléfonos móviles? Paradoja de Insecta" [6]. Para resolver la complejidad de los sistemas informáticos, es necesario estudiar sistemas informáticos heterogéneos y tecnologías informáticas plásticas.
En las aplicaciones de big data, la carga de los sistemas informáticos ha sufrido cambios esenciales y la estructura del sistema informático necesita una reconstrucción revolucionaria. Los sistemas de información deben pasar de los datos que giran en torno a los procesadores a las capacidades de procesamiento que giran en torno a los datos. La atención no se centra en el procesamiento de datos, sino en el manejo de los datos, y el punto de partida del diseño de la estructura del sistema debe pasar de centrarse en el tiempo de finalización de una sola tarea; mejorar el rendimiento del sistema Para mejorar la eficiencia y las capacidades de procesamiento paralelo, la escala de ejecución concurrente debe aumentarse a más de mil millones de niveles.
La idea básica de construir un sistema informático centrado en datos es eliminar fundamentalmente el flujo de datos innecesario, y el manejo de datos necesario también debe transformarse de "elefantes moviendo madera" a "hormigas moviendo arroz".
?5. Malentendidos que deben evitarse al desarrollar big data
(1) No perseguir ciegamente la “gran escala de datos”
La principal dificultad de big data no es una gran cantidad de datos, pero los tipos de datos son diversos, se requiere una respuesta oportuna y la autenticidad de los datos originales es difícil de distinguir. El software de base de datos existente no puede manejar datos no estructurados, por lo que se debe prestar atención a la fusión de datos, la estandarización del formato de datos y la interoperabilidad de los datos. Una de las características de big data es que los datos recopilados suelen ser de baja calidad, pero aún así merece atención mejorar la calidad de los datos originales tanto como sea posible. El mayor problema en la investigación de las ciencias del cerebro es la baja confiabilidad de los datos recopilados. Es difícil analizar resultados valiosos basados en datos con poca confiabilidad.
La búsqueda ciega de datos a gran escala no solo causará desperdicio, sino que también puede no ser muy efectiva. La integración y fusión de pequeños datos de múltiples fuentes puede generar un gran valor que no se puede obtener de grandes datos de una sola fuente. Se deben hacer más esfuerzos en la tecnología de fusión de datos y se debe prestar atención a la apertura y el intercambio de datos. La llamada gran escala de datos está estrechamente relacionada con el campo de la aplicación. En algunos campos, varios petabytes de datos pueden no considerarse grandes, pero en algunos campos, decenas de terabytes de datos pueden ser bastante grandes.
Para desarrollar big data, no podemos perseguir incesantemente “más grande, más y más rápido”. Debemos seguir un camino de desarrollo benigno de bajo costo, bajo consumo de energía, beneficio para el público y un estado de derecho justo. Debemos tratar la contaminación ambiental tal como lo hacemos ahora, prestar atención temprana a las diversas desventajas que pueden traer los macrodatos, como la "contaminación" y la invasión de la privacidad.
(2) No se deje “impulsar por la tecnología”, sea “primero las aplicaciones”
Las nuevas tecnologías de la información están surgiendo en un flujo interminable, y constantemente aparecen nuevos conceptos y términos. En el campo de la información, después de los "datos", las nuevas tecnologías como la "computación cognitiva", los "dispositivos portátiles" y los "robots" volverán a estar en la cima del revuelo. Estamos acostumbrados a seguir modas extranjeras, a menudo siguiendo inconscientemente tendencias tecnológicas, y es más fácil embarcarnos en el camino "impulsado por la tecnología". De hecho, el propósito del desarrollo de la tecnología de la información es servir a la gente, y el único criterio para probar todas las tecnologías es su aplicación. Para desarrollar la industria de big data en nuestro país, debemos adherirnos a la estrategia de desarrollo de "aplicación primero" y adherirnos a la ruta técnica basada en aplicaciones. La tecnología es limitada, las aplicaciones son ilimitadas. Para desarrollar la computación en la nube y los big data en varios lugares, debemos movilizar el entusiasmo de los departamentos de aplicaciones y las empresas innovadoras a través de políticas y diversas medidas, desarrollar nuevas aplicaciones a través de la innovación combinada transfronteriza y encontrar una salida a las aplicaciones.
(3) El método de los "pequeños datos" no se puede abandonar.
La definición popular de "grandes datos" es: datos que no se pueden recopilar, almacenar y procesar en un tiempo razonable. por el conjunto de herramientas de software convencionales actuales. Se trata de utilizar tecnología incompetente para definir el problema, lo que puede dar lugar a malentendidos. Según esta definición, las personas sólo pueden prestar atención a los problemas que no se pueden resolver en el momento, como un caminante que quiere pisar la sombra que tiene delante. De hecho, la mayoría de los problemas de procesamiento de datos que se encuentran actualmente en todos los ámbitos de la vida siguen siendo problemas de "datos pequeños". Debemos prestar atención a los problemas que realmente encontramos, ya sean big data o pequeños datos.
Los estadísticos han pasado más de 200 años resumiendo varias trampas en el proceso de datos cognitivos. Estas trampas no se llenarán automáticamente a medida que aumente la cantidad de datos. Hay muchos problemas de datos pequeños en big data, y la recopilación de big data también sufrirá las mismas desviaciones estadísticas que la recopilación de datos pequeños. Las predicciones de Google sobre la gripe han fallado en los últimos dos años debido a errores estadísticos causados por la intervención humana, como las recomendaciones de búsqueda.
Existe una opinión popular en la comunidad de big data: los big data no requieren análisis de relaciones causales, muestreo ni datos precisos. Este concepto no puede hacerse absoluto en el trabajo real, es necesario combinar la deducción e inducción lógicas, la investigación de caja blanca y de caja negra, y métodos de big data y métodos de pequeña data.
(4) Preste mucha atención al costo de construir una plataforma de big data
Actualmente se están construyendo grandes centros de datos en todo el país, y centros de procesamiento de datos con una capacidad de más de 2 PB se han establecido bajo las montañas Luliang, muchos departamentos de seguridad pública de la ciudad requieren el almacenamiento de videos de vigilancia de alta definición durante más de 3 meses. El coste de estos sistemas es muy elevado. El valor de la minería de datos se obtiene al costo, y los sistemas de big data no se pueden construir a ciegas, independientemente del costo. Los datos que deben conservarse y durante cuánto tiempo deben determinarse en función del valor probable y el costo requerido. La tecnología del sistema de big data todavía está bajo investigación. El sistema de supercomputadora de clase E de los EE. UU. requiere que el consumo de energía se reduzca 1.000 veces y no está previsto que se desarrolle hasta 2024. El enorme sistema construido con la tecnología actual consume una energía extremadamente alta.
No debemos comparar la escala de los sistemas de big data, sino comparar los efectos reales de la aplicación y consumir menos recursos y energía que completar lo mismo. Primero debemos comprender las aplicaciones de big data que más necesitan las personas y desarrollar big data de acuerdo con las condiciones locales. La estrategia para desarrollar big data es la misma que para lograr la informatización: el objetivo debe ser ambicioso, el comienzo debe ser preciso y el desarrollo debe ser rápido.