Red de conocimiento informático - Material del sitio web - Cómo abordar las oportunidades y desafíos de la recopilación de datos en la era del Internet de las cosas

Cómo abordar las oportunidades y desafíos de la recopilación de datos en la era del Internet de las cosas

Big data generalmente se refiere a enormes conjuntos de datos, que se valoran porque de ellos se puede extraer información valiosa. El Wall Street Journal llama a la era del big data, la producción inteligente y la revolución de las redes inalámbricas los tres principales cambios tecnológicos que conducirán a la prosperidad futura. Un informe de McKinsey & Company señala que los datos son un medio de producción y el big data es la próxima frontera para la innovación, la competencia y la mejora de la productividad. Un informe del Foro Económico Mundial identifica los big data como nueva riqueza, con un valor comparable al del petróleo. Por lo tanto, los países desarrollados han considerado el desarrollo y la utilización de big data como un punto de partida importante para alcanzar las alturas dominantes de una nueva ronda de competencia.

La llegada de la era del big data

El desarrollo de Internet, especialmente de la Internet móvil, ha acelerado la penetración de la informatización en todos los aspectos de la economía social y la vida cotidiana de las personas. público. Los datos muestran que en 1998, el uso de tráfico mensual promedio de los usuarios globales de Internet fue de 1 MB (megabytes), en 2000 fue de 10 MB, en 2003 fue de 100 MB, en 2008 fue de 1 GB (1 GB equivale a 1024 MB) y en 2014 será 10 GB. El tiempo que tardó el tráfico total de la red en alcanzar 1EB (es decir, mil millones de GB o 1000PB) fue un año en 2001, un mes en 2004, una semana en 2007 y solo un día en 2013, es decir, la cantidad de información En un día se generan 188 millones de discos DVD. Mi país tiene el mayor número de usuarios de Internet del mundo y la cantidad de datos que se generan cada día también se encuentra entre las más altas del mundo. El sitio web de Taobao tiene más de decenas de millones de transacciones cada día, el volumen de generación de datos en un solo día supera los 50 TB (1 TB equivale a 1000 GB) y la capacidad de almacenamiento es de 40 PB (1 PB equivale a 1000 TB). El volumen total de datos actual de Baidu es cercano a 1000 PB y el número de páginas web almacenadas es cercano a 1 billón de páginas. Procesa aproximadamente 6 mil millones de solicitudes de búsqueda y docenas de datos de PB todos los días. Una cámara de 8 Mbps (megabits por segundo) puede generar 3,6 GB de datos por hora. Si una ciudad instala cientos de miles de cámaras de tráfico y de seguridad, la cantidad de datos generados cada mes alcanzará decenas de petabytes. Los hospitales también son donde se concentra la generación de datos. Hoy en día, la cantidad de datos de imágenes de TC de un paciente alcanza decenas de GB, hay miles de millones de visitas ambulatorias en todo el país cada año y su información debe almacenarse durante mucho tiempo. En resumen, los big data existen en todos los ámbitos de la vida y se avecina una era de big data.

La explosión de la información no comenzó hoy, pero en los últimos años la gente se ha vuelto más consciente del rápido desarrollo del big data. Por un lado, el número de usuarios de Internet está aumentando; por otro, el número de dispositivos conectados representados por el Internet de las cosas y los electrodomésticos está creciendo más rápidamente. En 2007, había 500 millones de dispositivos conectados a Internet, con una media de 0,1 dispositivos por persona; en 2013, habrá 50 mil millones de dispositivos conectados a Internet, con una media de 70 dispositivos por persona. Con el desarrollo de la banda ancha, el ancho de banda y el tráfico de acceso a la red per cápita también han aumentado rápidamente. Los nuevos datos generados en todo el mundo aumentan un 40% anualmente, lo que significa que la cantidad total de información puede duplicarse cada dos años, y esta tendencia continuará. En la actualidad, no es raro que un único conjunto de datos supere decenas de terabytes o incluso varios petabytes. Su tamaño es demasiado grande para capturar, gestionar y procesar su contenido en el tiempo permitido utilizando herramientas de software convencionales.

Cuanto mayor sea el tamaño de los datos, más difícil será procesarlos, pero mayor valor se puede obtener al extraerlos. Por eso los big data son tan populares. En primer lugar, los macrodatos reflejan la opinión pública y la opinión pública. Los datos masivos generados por los internautas en Internet registran sus pensamientos, comportamientos e incluso emociones. Esto es producto de la profunda integración de la sociedad real y el ciberespacio en la era de la información, y contiene ricas connotaciones y mucha información regular. Según las estadísticas del Centro de Información de la Red de Internet de China, el número de usuarios de Internet en mi país a finales de 2012 era de 564 millones y el número de usuarios de Internet desde teléfonos móviles era de 420 millones. Al analizar los datos relevantes, podemos comprender las necesidades del público. , demandas y opiniones. En segundo lugar, los sistemas de información empresariales y gubernamentales generan continuamente grandes cantidades de datos todos los días. Según un informe de investigación de Symantec, la cantidad total de almacenamiento de información en las empresas globales ha alcanzado los 2,2 ZB (1 ZB equivale a 1000 EB), un aumento anual del 67 %. Hospitales, escuelas, bancos, etc. también recopilan y almacenan grandes cantidades de información. Los gobiernos pueden desplegar unidades de detección, como sensores, para recopilar la información necesaria para la gestión ambiental y social. En 2011, la revista británica Nature publicó un número especial en el que señalaba que si los macrodatos se pueden organizar y utilizar de forma más eficaz, los seres humanos tendrán más oportunidades de desempeñar un papel enorme en la promoción del desarrollo social a través de la ciencia y la tecnología.

Campos de aplicaciones de big data

La tecnología de big data se puede aplicar a todos los ámbitos de la vida.

En términos de macroeconomía, IBM Japón ha establecido un sistema de pronóstico de indicadores económicos, buscando 480 datos económicos que afectan a la industria manufacturera a partir de noticias de Internet y calculando el valor previsto del índice de gerentes de compras. La Universidad de Indiana utilizó la herramienta de análisis del estado de ánimo proporcionada por Google para resumir seis estados de ánimo de casi 10 millones de comentarios de internautas y luego predijo cambios en el índice industrial Dow Jones con una precisión del 87%. En la industria manufacturera, los fondos de cobertura de Wall Street analizan las ventas de productos de las empresas basándose en las opiniones de los clientes en sitios web de compras; algunas empresas utilizan análisis de big data para gestionar las adquisiciones y el inventario razonable, comprender las necesidades de los clientes y captar las tendencias del mercado mediante el análisis de datos en línea. Según los datos, los minoristas mundiales pierden ventas por valor de 100 mil millones de dólares cada año debido a las compras a ciegas. El análisis de los datos en este ámbito es muy prometedor.

En el campo de la agricultura, hay una empresa climática en Silicon Valley que obtiene décadas de datos meteorológicos de bases de datos como la Oficina Meteorológica de EE. UU. y establece correlaciones precisas entre las precipitaciones, la temperatura, las condiciones del suelo y el rendimiento de los cultivos a lo largo de los años. los años, predecir los rendimientos agrícolas para el próximo año y vender seguros personalizados a los agricultores. En el campo comercial, Wal-Mart analiza los datos de ventas para comprender los hábitos de compra de los clientes y determina los productos adecuados para la venta en conjunto. También puede segmentar grupos de clientes y brindar servicios personalizados. En el campo financiero, la empresa "Derwent Capital Markets" de Wall Street analiza 340 millones de mensajes de cuentas de Weibo para juzgar el sentimiento del público y decide si comprar o vender acciones de la empresa basándose en la regla de que la gente compra acciones cuando está contenta y vende acciones cuando está contenta. están ansiosos. Alibaba Company selecciona empresas con salud e integridad financiera en función del estado de las transacciones de las pequeñas y medianas empresas en Taobao y les otorga préstamos sin garantía. En la actualidad, se han prestado más de 30.000 millones de yuanes y la tasa de morosidad es sólo del 0,3%.

En el ámbito de la atención sanitaria, el proyecto "Google Flu Trends" analiza la propagación de la gripe y otras enfermedades en todo el mundo basándose en el contenido de búsqueda de los usuarios de Internet en comparación con los informes proporcionados por los Centros para Enfermedades de Estados Unidos. Control y Prevención, la precisión del seguimiento de enfermedades alcanza el 97%. Las redes sociales proporcionan a muchos pacientes con enfermedades crónicas una plataforma para compartir síntomas clínicos y experiencias de diagnóstico y tratamiento, a través de la cual los médicos pueden obtener estadísticas de efectos clínicos que normalmente no están disponibles en los hospitales. Basado en el análisis de big data de genes humanos, se puede lograr un tratamiento personalizado. En el campo de la gestión de la seguridad social, mediante la extracción de datos de teléfonos móviles, se pueden analizar fuentes dinámicas y en tiempo real de población flotante, viajes, información sobre el flujo de pasajeros en tiempo real y condiciones de congestión. Utilizando SMS, Weibo, WeChat y motores de búsqueda, puede recopilar eventos candentes, extraer opinión pública y rastrear la fuente de información que propaga rumores. El Instituto de Tecnología de Massachusetts en Estados Unidos procesa llamadas, mensajes de texto e información de ubicación espacial de más de 100.000 teléfonos móviles para extraer las regularidades espaciotemporales del comportamiento de las personas y predecir delitos. En el campo de la investigación científica, los descubrimientos científicos basados ​​en un análisis intensivo de datos se han convertido en el cuarto paradigma, después de la ciencia experimental, la ciencia teórica y la ciencia computacional, y están surgiendo la genómica de materiales y la biología sintética basada en el análisis de big data.

El informe de McKinsey & Company de 2011 especulaba que si el big data se utiliza para la atención médica en Estados Unidos, podría generar un valor potencial de 300 mil millones de dólares al año, y si se utiliza para la gestión corporativa en Europa , podría generar un valor potencial anual de 250 mil millones de dólares; los proveedores de servicios pueden obtener un beneficio potencial anual para los consumidores de 600 mil millones de dólares utilizando datos de ubicación personal; los minoristas pueden aumentar sus ganancias operativas en un 60% y fabricar equipos; Los costes de montaje se pueden reducir en un 50%.

Desafíos y avances de la tecnología Big Data

En la actualidad, todavía existen algunas dificultades y desafíos en la aplicación de la tecnología Big Data, que se reflejan en los cuatro eslabones de la minería de Big Data. . Primero en términos de recopilación de datos. Es necesario asignar marcadores temporales y espaciales a los datos de la red, incluido el Internet de las cosas y los sistemas de información institucionales, para eliminar las falsedades y preservar la verdad, recopilar en la medida de lo posible datos heterogéneos e incluso heterogéneos y compararlos con datos históricos. datos cuando sea necesario para verificar la exhaustividad y confiabilidad de los datos desde múltiples ángulos. En segundo lugar está el almacenamiento de datos. Para lograr los objetivos de bajo costo, bajo consumo de energía y alta confiabilidad, generalmente se utilizan tecnologías redundantes de configuración, distribución y computación en la nube. Los datos deben clasificarse de acuerdo con ciertas reglas durante el almacenamiento, y el volumen de almacenamiento debe reducirse mediante filtrado y deduplicación. También agregue etiquetas para recuperarlas fácilmente en el futuro. El tercero es el procesamiento de datos.

Los datos de algunas industrias involucran cientos de parámetros. Su complejidad no solo se refleja en la muestra de datos en sí, sino también en la dinámica interactiva entre múltiples fuentes heterogéneas, múltiples entidades y múltiples espacios. proceso utilizando métodos tradicionales La complejidad de los datos multimedia, como las imágenes de alta dimensión, debe reducirse y luego medirse y procesarse, utilizando la asociación de contexto para realizar un análisis semántico, sintetizando información a partir de una gran cantidad de datos dinámicos y posiblemente ambiguos, y derivando información comprensible. contenido. El cuarto es la presentación visual de los resultados para hacerlos más intuitivos y facilitar la comprensión. En la actualidad, aunque la inteligencia informática ha logrado grandes avances, solo puede analizar datos a pequeña escala, estructurados o de estructura similar, y no puede hablar de minería de datos profunda. Los algoritmos de minería de datos existentes son difíciles de usar en diferentes industrias.

Las perspectivas de aplicación de la tecnología de big data son muy brillantes. Actualmente, nuestro país está en el camino de construir una sociedad moderadamente acomodada de manera integral. La industrialización, la informatización, la urbanización y la modernización agrícola tienen tareas muy difíciles. Debemos construir la próxima generación de infraestructura de información y desarrollar una tecnología de la información moderna. sistema industrial, mejorar el sistema de seguridad de la información y promover las redes de información. La aplicación extensiva de la tecnología es la garantía para el desarrollo simultáneo de las cuatro modernizaciones. El análisis de big data es de gran importancia para que podamos comprender profundamente las condiciones mundiales y nacionales, comprender las leyes, lograr el desarrollo científico y tomar decisiones científicas. Debemos volver a comprender el importante valor de los datos.

Para desarrollar la mina de oro del big data, todavía tenemos mucho trabajo por hacer. En primer lugar, el análisis de big data requiere tecnología de big data y soporte de producto. Algunas empresas de tecnología de la información (TI) de los países desarrollados han hecho esfuerzos iniciales para transformarse en proveedores de soluciones de big data a través de diversos medios, como mayores esfuerzos de desarrollo y fusiones. Algunas empresas extranjeras se han ofrecido a realizar análisis de big data de forma gratuita, no sólo para entrenar tropas sino también para obtener inteligencia. La excesiva dependencia de tecnologías y plataformas extranjeras de análisis de big data hace difícil evitar el riesgo de fuga de información. Alguna información de la vida diaria puede parecer intrascendente, pero de hecho, también puedes tener una idea del pulso económico y social del país. Por lo tanto, necesitamos tecnologías y productos de big data independientes y controlables. El gobierno de Estados Unidos lanzó la "Iniciativa de Investigación y Desarrollo de Big Data" en marzo de 2012, que es otro despliegue tecnológico importante después del anuncio de la "Superautopista de la Información" en 1993. El gobierno federal y algunos ministerios han asignado fondos para el desarrollo de big data. Hay muchas brechas entre nosotros y los países desarrollados, y necesitamos más apoyo político nacional.

China tiene la población más grande del mundo y se convertirá en el país que genera la mayor cantidad de datos. Sin embargo, no prestamos suficiente atención a la preservación de los datos y la tasa de utilización de los datos almacenados no es alta. Además, algunos departamentos e instituciones de nuestro país tienen grandes cantidades de datos pero no están dispuestos a compartirlos con otros departamentos, lo que resulta en información incompleta o duplicación de inversiones. El gobierno debería romper la segregación y el bloqueo de datos mediante reformas institucionales y de mecanismos, prestar atención a la divulgación de información y prestar atención a la extracción de datos. El gobierno federal de EE. UU. ha establecido un portal abierto de datos unificado para brindar servicios de información a la sociedad y fomentar la extracción y utilización. Por ejemplo, proporciona la relación entre el clima local y los retrasos en los vuelos para promover que las aerolíneas mejoren la puntualidad.

La extracción y utilización de big data debería basarse en leyes. La decisión de fortalecer la protección de la información de la red aprobada por el Congreso Nacional del Pueblo a finales del año pasado es un buen comienzo. En la actualidad, se debe formular una "ley de divulgación de información" lo antes posible para adaptarse a la llegada de la era de los grandes datos. . Muchas organizaciones y empresas ahora tienen grandes cantidades de información de clientes. No sólo debemos fomentar la extracción de datos para grupos y servir a la sociedad, sino también evitar la infracción de la privacidad individual; no sólo debemos promover el intercambio de datos, sino también evitar que se abuse de ellos; Además, también es necesario definir la autoridad y el alcance de la extracción y utilización de datos. La seguridad del propio sistema de big data también merece especial atención tanto a la seguridad técnica como a la seguridad del sistema de gestión para evitar que la información sea dañada, manipulada, filtrada o robada, y para proteger la seguridad de la información de los ciudadanos y del país.

La era del big data requiere talentos innovadores. Geithner Consulting predice que big data creará 4,4 millones de nuevos empleos de TI y decenas de millones de empleos no relacionados con TI en todo el mundo. McKinsey & Company predice que para 2018, Estados Unidos necesitará entre 440.000 y 490.000 talentos de análisis de datos en profundidad, con una brecha de 140.000 a 190.000, necesitará 1,5 millones de gerentes que estén familiarizados con las necesidades de sus propias unidades y entiendan lo grande; tecnología y aplicaciones de datos, y habrá una brecha de talento mayor en esta área. China es un país rico en talentos, pero los talentos innovadores que pueden comprender y aplicar big data son recursos aún más escasos.

Big data es un reflejo concentrado de la nueva generación de tecnología de la información. Es un campo de servicios altamente impulsado por aplicaciones y un campo industrial emergente con un potencial ilimitado. En la actualidad, sus estándares y estructura industrial aún no lo han hecho. Esta es una valiosa oportunidad para que nuestro país logre un gran desarrollo.

Debemos otorgar importancia estratégica al desarrollo y utilización de big data y utilizarlos como un punto de partida eficaz para transformar el modo de crecimiento económico. Sin embargo, debemos prestar atención a la planificación científica y evitar apresurarnos.