La importancia del almacenamiento de datos en la minería de datos
Con el auge de Internet, el Internet de las cosas, la computación en la nube, el big data y la inteligencia artificial aparecen cada vez con más frecuencia en el ojo público.
La computación en la nube es equivalente al cerebro humano y al centro neurálgico del Internet de las Cosas. La computación en la nube es un modelo basado en Internet para la adición, uso y prestación de servicios relacionados que normalmente implica el suministro de recursos dinámicamente escalables y a menudo virtualizados a través de Internet.
Big data equivale al conocimiento masivo que el cerebro humano memoriza y almacena desde la escuela primaria hasta la universidad. Este conocimiento sólo puede crear un mayor valor a través de la digestión, la absorción y la reconstrucción.
La metáfora de la inteligencia artificial es que una persona absorbe una gran cantidad de conocimiento humano (datos) y continuamente aprende y evoluciona en profundidad hasta convertirse en un experto. La inteligencia artificial es inseparable del big data y se basa en plataformas de computación en la nube para completar la evolución del aprendizaje profundo.
El Internet de las cosas es una expansión de aplicaciones de Internet, similar al anterior "Internet +", que es una combinación de negocios y aplicaciones de Internet, cuyo núcleo es la innovación de aplicaciones centrada en la experiencia del usuario.
Hablamos principalmente de “big data”.
La definición de big data
Alrededor de 2001, Gartner propuso la siguiente definición de big data (sigue siendo la explicación autorizada de big data): Big data se refiere a la velocidad (Velocity) Surge una gran cantidad de datos diversos. Esta definición indica que big data tiene características de 3V.
En resumen, big data se refiere a conjuntos de datos cada vez más grandes y complejos, especialmente conjuntos de datos de nuevas fuentes de datos. La escala es tan grande que el software de procesamiento de datos tradicional no puede hacer nada, pero puede ayudarnos a resolverlo. problemas comerciales difíciles en el pasado.
El valor y la autenticidad del big data
En los últimos años se han añadido dos nuevas "V" a la definición de big data: valor y veracidad.
En primer lugar, los datos ciertamente contienen valor, pero si su valor no se extrae mediante métodos adecuados, los datos son inútiles. En segundo lugar, sólo los datos reales y fiables son significativos.
Hoy en día, big data se ha convertido en una especie de capital. Todas las grandes empresas de tecnología de todo el mundo se basan en los principios de funcionamiento de big data y analizan continuamente datos en varios casos de uso de big data para mejorar la eficiencia operativa y promover. el desarrollo de nuevos productos. Gran parte del valor creado proviene de los datos que tienen a su disposición.
Actualmente, muchos avances tecnológicos de vanguardia han reducido exponencialmente los costos de almacenamiento e informática de datos. Las empresas pueden almacenar más datos con mayor facilidad y con menor inversión económica que en el pasado, y con cantidades masivas de big data que son asequibles y de fácil acceso, pueden tomar fácilmente decisiones comerciales más exactas y precisas.
Sin embargo, desde la perspectiva del principio de funcionamiento de big data, la extracción de valor de big data es un proceso de exploración completo y no solo un análisis de datos. Requiere analistas, usuarios comerciales y gerentes perspicaces. patrones de datos, formular hipótesis razonables y predecir con precisión el comportamiento en casos de uso de big data.
Historia del Big Data
Aunque el concepto de big data es relativamente reciente, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970. El mundo de los datos estaba en su infancia en ese momento, y durante esa época aparecieron los primeros centros de datos y las primeras bases de datos relacionales del mundo.
Alrededor de 2005, la gente empezó a darse cuenta de que los usuarios generaban grandes cantidades de datos mientras utilizaban Facebook, YouTube y otros servicios en línea. Ese mismo año, se lanzó Hadoop, un marco de código abierto desarrollado específicamente para almacenar y analizar grandes conjuntos de datos, y NoSQL comenzó a ganar popularidad lentamente durante el mismo período.
La llegada de marcos de código abierto como Hadoop y más tarde Spark es de gran importancia para el desarrollo de big data. Son ellos los que reducen el costo del almacenamiento de datos y hacen que big data sea más fácil de usar. En los años siguientes, la cantidad de big data se disparó aún más. Hasta el día de hoy, los “usuarios” de todo el mundo (no sólo los humanos, sino también las máquinas) continúan generando enormes cantidades de datos.
Con el auge del Internet de las cosas (IoT), cada vez hay más dispositivos conectados a Internet que recopilan grandes cantidades de patrones de uso de los clientes y datos de rendimiento de los productos, y ha surgido el aprendizaje automático. aceleró aún más el crecimiento del volumen de recopilación de datos.
Sin embargo, aunque existe desde hace mucho tiempo, la utilización de big data por parte de las personas apenas ha comenzado. Hoy en día, la computación en la nube desbloquea aún más el potencial del big data al permitir a los desarrolladores crear fácilmente clústeres ad hoc para probar subconjuntos de datos proporcionando verdadera elasticidad/escalabilidad.
Ventajas del big data y el análisis de datos:
1. Big data significa más información, lo que puede proporcionarle conocimientos más completos.
2. Una información más completa implica una mayor confiabilidad, lo que le ayuda a desarrollar nuevas soluciones.
En segundo lugar, los big data también tienen las cuatro características de gran cantidad, alta velocidad, diversidad y baja densidad.
Variedad: la mayor diferencia entre big data y datos tradicionales es la cantidad de datos, que es mucho mayor que los datos tradicionales, como el flujo de datos de Douyin y el flujo de clics de Baidu. Datos de baja densidad. El volumen de datos a menudo alcanza decenas de petabytes. Además, debido a que la cantidad de datos no se puede almacenar ni procesar de manera tradicional, ha surgido la ciencia emergente del big data.
Alta velocidad: La mayor diferencia entre big data y datos tradicionales es la rápida velocidad de generación. Debido al auge de Internet y la popularización de los equipos de información, tomando como ejemplo Facebook, que tiene más de 2 mil millones de usuarios, si cada usuario envía un mensaje todos los días, habrá 2 mil millones de datos. Todos pueden crear datos en cualquier momento y en cualquier lugar, y la velocidad de generación de datos no tiene comparación en el pasado.
Diversidad: la diversidad se refiere a la gran cantidad de tipos de datos disponibles. Con el auge del big data, tipos de datos como texto, audio y video surgen constantemente y requieren operaciones de preprocesamiento adicionales para brindarlos verdaderamente. conocimientos y metadatos de apoyo. Debido a sus formas diversas y complejas, el almacenamiento de big data también requiere tecnologías de almacenamiento que sean diferentes de los datos tradicionales.
Baja densidad: la densidad del valor de los datos es relativamente baja con la aplicación generalizada de Internet y el Internet de las cosas, la percepción de la información es ubicua y hay una gran cantidad de información, pero la densidad del valor es baja. Tomemos como ejemplo el vídeo. En un vídeo de una hora, durante el seguimiento ininterrumpido, los datos útiles pueden ser sólo uno o dos segundos.
Desafíos del big data
1. Desafíos de seguridad
Aunque el big data se ha convertido en una tendencia de desarrollo en diversos campos debido a su amplia gama de aplicaciones, el lanzamiento de datos a veces irá acompañado de la exposición de la privacidad del usuario, como filtraciones de datos de FaceBook, filtraciones personales de Google+ y otros incidentes que causan problemas de privacidad debido a la fuga de datos. Qué datos de usuario se pueden obtener y cuáles no se pueden leer, siempre existe un riesgo legal de vulnerar la privacidad del usuario.
2. Innovación tecnológica
Big data requiere el apoyo de toda la cadena de la industria de la información, desde los chips subyacentes hasta el software básico y el software de análisis de aplicaciones, ya sean nuevas plataformas informáticas o distribuidas. Hay una gran brecha con los países extranjeros en términos de arquitectura informática y procesamiento, análisis y presentación de big data. La influencia en la tecnología de código abierto y los ecosistemas relacionados aún es débil y, en general, es difícil satisfacer las necesidades de aplicaciones de big data de diversas industrias.
3. El costo es demasiado alto
Los operadores necesitan procesar una gran cantidad de datos, que se mide básicamente en petabytes. Procesar estos datos requiere una gran inversión.
4. Rendimiento en tiempo real
Solo los datos con calidad en tiempo real son valiosos. Cuanto más tiempo se almacenan, menor es su valor. En la sociedad acelerada de hoy, el mercado cambia rápidamente todos los días. Las marcas analizan las necesidades de los usuarios a través de big data. Si los datos del usuario obtenidos son demasiado antiguos, consultar estos datos para planificar la dirección de los productos puede tener un impacto negativo en el desarrollo. de la empresa. Un golpe devastador.
No importa en qué industria, si desea tener éxito en la situación actual, debe poder extraer continuamente valor comercial de los datos. Por lo tanto, la protección de datos es inseparable del almacenamiento. El mercado de memoria incluye principalmente unidades de estado sólido, discos duros híbridos y discos duros tradicionales.
La unidad de estado sólido (SSD) consta de una unidad de control y una unidad de almacenamiento. Las especificaciones, definiciones, funciones y usos de la interfaz de las unidades de estado sólido son las mismas que las de los discos duros normales, y la forma y el tamaño también son los mismos que los de los discos duros normales. Ampliamente utilizado en militares, vehículos, control industrial, videovigilancia, monitoreo de redes, terminales de red, energía eléctrica, equipos médicos, de aviación, de navegación y otros campos.
Ventajas: rápida velocidad de lectura y escritura; bajo consumo de energía. Sin ruido; amplio rango de temperatura de funcionamiento; desventajas: pequeña capacidad; vida limitada;
El disco duro híbrido es un dispositivo de almacenamiento de gran capacidad compuesto por un disco duro tradicional y un módulo de memoria flash.
La memoria flash maneja los datos en la memoria que se escriben o restauran con mayor frecuencia. Muchas empresas ofrecen diferentes tecnologías que esperan que se vuelvan populares en los sistemas de alta gama, especialmente en las computadoras portátiles y de mano.
Los discos duros híbridos ofrecen muchas ventajas sobre los discos duros tradicionales: almacenamiento y recuperación de datos más rápidos para aplicaciones como procesadores de texto; tiempos de inicio del sistema más rápidos; menor generación de calor y mayor vida útil del disco duro; y duración de la batería del portátil;Reducir el nivel de ruido:
El disco duro tradicional se refiere al disco duro mecánico (HDD), la memoria más básica de la computadora. A menudo decimos que la unidad C del disco duro de la computadora, y. La unidad D es la partición del disco y pertenece al disco duro. En la actualidad, las capacidades de los discos duros normales incluyen 80G, 128g, 160g, 256g, 320g, 500g, 750g, 1TB, 2TB, etc. Según la capacidad, se pueden dividir en 3,5 pulgadas, 2,5 pulgadas, 1,8 pulgadas, 5400 rpm. /7200rpm/10000rpm, etc.
Se generan y recopilan datos masivos a través del Internet de las cosas y se almacenan en la plataforma en la nube, y luego a través del análisis de big data y formas aún superiores de inteligencia artificial para brindar mejores servicios para las actividades de producción humana y las necesidades diarias. El almacenamiento, portador de todos los datos generados, será una estrella brillante en la evolución de la cuarta revolución industrial.