Red de conocimiento informático - Conocimiento sistemático - ¿Cuáles son las características del big data de IoT?

¿Cuáles son las características del big data de IoT?

1. Distribución eficiente

Debe ser un sistema distribuido eficiente. La cantidad de datos generados por el Internet de las cosas es enorme. Sólo en China, hay más de 500 millones de medidores inteligentes que recopilan datos cada 15 minutos en todo el país y generan más de 50 mil millones de registros al día. Ningún servidor es capaz de procesar una cantidad tan grande de datos, por lo que el sistema de procesamiento debe ser distribuido y escalable horizontalmente. Para reducir costos, el rendimiento del procesamiento de un nodo debe ser eficiente y admitir una escritura y consulta rápidas de datos.

2. Procesamiento en tiempo real

Debe ser un sistema de procesamiento en tiempo real. Los escenarios familiares para el procesamiento de big data en Internet son retratos de usuarios, sistemas de recomendación, análisis de opinión pública, etc. Estos escenarios no requieren rendimiento en tiempo real y pueden procesarse en lotes. Sin embargo, para los escenarios de IoT, es necesario tomar decisiones y advertencias en tiempo real basadas en los datos recopilados, y el retraso debe controlarse en segundos. Si la informática no es en tiempo real, el valor comercial del Internet de las cosas se reducirá considerablemente.

3. Alta confiabilidad

Requiere servicios de alta confiabilidad a nivel de operador. El sistema de Internet de las cosas a menudo está conectado al sistema de producción y operación. Si el sistema de procesamiento de datos falla, provocará directamente el cierre de la producción, lo que provocará pérdidas económicas y la incapacidad de brindar servicios normales a los consumidores finales. Por ejemplo, si hay un problema con el sistema de contador inteligente, provocará directamente que miles de hogares no puedan utilizar la electricidad con normalidad. Por lo tanto, el sistema de big data de IoT debe ser altamente confiable, debe admitir copias de seguridad de datos en tiempo real, debe admitir la recuperación de desastres fuera del sitio, debe admitir actualizaciones en línea de software y hardware y debe admitir la migración en línea de la sala de computadoras IDC; de lo contrario, los servicios deben ser interrumpido.

4. Almacenamiento en caché eficiente

Requiere una función de almacenamiento en caché eficiente. En la mayoría de los escenarios, es necesario obtener rápidamente el estado actual del dispositivo u otra información para alarmas, visualización en pantalla grande u otros fines. El sistema debe proporcionar un mecanismo eficiente para que los usuarios puedan obtener el estado más reciente de todos o algunos dispositivos que cumplan con las condiciones de filtrado.

5. Computación de transmisión en tiempo real

Se requiere computación de transmisión en tiempo real. Varias advertencias o predicciones en tiempo real ya no se basan simplemente en un umbral determinado, sino que requieren la agregación y el cálculo en tiempo real de flujos de datos generados por uno o más dispositivos, no solo en función de un momento determinado, sino en función de una ventana de tiempo. . No solo eso, los requisitos de cálculo también son bastante complejos y varían según el escenario, por lo que se deben permitir funciones definidas por el usuario para el cálculo.

6. Suscripción de datos

Necesidad de admitir la suscripción de datos. En consonancia con una plataforma general de big data, muchas aplicaciones suelen requerir el mismo conjunto de datos, por lo que el sistema debe proporcionar una función de suscripción y alertar a las aplicaciones en tiempo real cada vez que se actualizan nuevos datos. Además, esta suscripción también debe ser personalizada, permitiendo a la aplicación establecer condiciones de filtrado, como suscribirse únicamente al promedio de cinco minutos de una determinada cantidad física.

7. Integrar el procesamiento de datos en tiempo real y datos históricos en uno.

El procesamiento de datos en tiempo real y datos históricos debe integrarse en uno. Los datos en tiempo real están en la memoria caché y los datos históricos están en el medio de almacenamiento persistente y pueden conservarse en diferentes medios de almacenamiento según la duración. El sistema debe ocultar el almacenamiento detrás de él y presentar la misma interfaz e interfaz a los usuarios y aplicaciones. Ya sea que acceda a datos recién recopilados o a datos antiguos de hace diez años, el resto debe ser igual excepto los parámetros de tiempo de entrada.

8. Los datos se pueden escribir de forma continua y estable.

Es necesario garantizar que los datos se puedan escribir de forma continua y estable. Para los sistemas de IoT, el tráfico de datos suele ser estable, por lo que a menudo se pueden estimar los recursos necesarios para la escritura de datos. Pero lo que ha cambiado es que las consultas y el análisis, especialmente las consultas ad hoc, pueden consumir muchos recursos del sistema y son incontrolables. Por lo tanto, el sistema debe garantizar que se asignen recursos suficientes para garantizar que los datos se puedan escribir en el sistema sin perderse. Para ser precisos, el sistema debe ser un sistema de escritura primero.

9. Análisis de datos multidimensionales

Es necesario soportar un análisis multidimensional de datos flexible. Para los datos generados por dispositivos en red, es necesario realizar análisis estadísticos en varias dimensiones, como análisis de la región donde se encuentra el dispositivo, análisis del modelo y proveedor del dispositivo, análisis del personal que utiliza el dispositivo, etc. .

Además, el análisis de estas dimensiones no se puede planificar con antelación, sino que se determina de acuerdo con las necesidades del desarrollo empresarial durante el proceso operativo real. Por lo tanto, el sistema de big data de IoT necesita un mecanismo flexible para agregar una cierta dimensión de análisis.

10. Admitir cálculo de datos

Necesidad de admitir reducción de datos, interpolación, cálculo de funciones especiales y otras operaciones. La frecuencia de recopilación de datos sin procesar puede ser bastante alta, pero para análisis específicos, a menudo no es necesario realizar las recepciones originales, sino que los datos se reducen con frecuencia. El sistema debe proporcionar operaciones eficientes de conversión de datos. Es difícil sincronizar dispositivos y alinear los puntos temporales de los datos recopilados por diferentes dispositivos. Por lo tanto, a menudo se requiere interpolación para analizar el valor en un punto temporal específico. El sistema necesita proporcionar múltiples estrategias de interpolación, como la lineal. Interpolación y configuración de valores fijos. En la Internet industrial, además de las operaciones estadísticas generales, a menudo es necesario admitir algunas funciones especiales, como el promedio ponderado en el tiempo.

11. Análisis y consultas ad hoc

Necesidad de soportar análisis y consultas ad hoc. Para mejorar la eficiencia del trabajo de los analistas de big data, el sistema debe proporcionar una herramienta de línea de comandos o permitir a los usuarios ejecutar consultas SQL a través de otras herramientas, en lugar de a través de una interfaz de programación. Los resultados del análisis de consultas se pueden exportar fácilmente y convertir en varios íconos.

12. Estrategia de gestión de datos flexible

Es necesario proporcionar una estrategia de gestión de datos flexible. Un sistema grande recopila una amplia variedad de datos y, además de los datos originales recopilados, también hay una gran cantidad de datos derivados. Cada uno de estos datos tiene características diferentes. Algunos se recopilan con frecuencia, otros requieren tiempos de retención prolongados, algunos requieren múltiples copias para garantizar una mayor seguridad y otros requieren un acceso rápido. Por lo tanto, la plataforma de big data de IoT debe proporcionar múltiples estrategias para que los usuarios puedan seleccionar y configurar según las características, y coexisten varias estrategias.

13. Sistema abierto

Debe estar abierto. El sistema debe ser compatible con el popular SQL estándar de la industria y proporcionar varias interfaces de desarrollo de lenguajes, incluidos C/C, Java, Go, Python, RESTful, etc. También debe ser compatible con Spark, R, Matlab, etc. para facilitar la La integración de varios algoritmos inteligentes de aprendizaje automático, inteligencia artificial u otras aplicaciones permite que la plataforma de procesamiento de big data se expanda continuamente en lugar de convertirse en una isla aislada.

14. Soportar entornos heterogéneos

El sistema debe soportar entornos heterogéneos. La construcción de una plataforma de big data es un trabajo a largo plazo. Los servidores y dispositivos de almacenamiento adquiridos en cada lote serán diferentes. El sistema debe admitir la coexistencia de servidores y dispositivos de almacenamiento de diversos grados y configuraciones.

15. Apoyar la colaboración en el borde de la nube

Necesidad de soportar la colaboración en el borde de la nube. Debe haber un mecanismo flexible para cargar datos desde los nodos de computación de borde a la nube. Según las necesidades específicas, los datos sin procesar, los datos procesados ​​y calculados, o los datos que solo cumplen con las condiciones de filtrado se pueden sincronizar con la nube y la política se puede cancelar. y cambiar en cualquier momento.