¿Cuál es la diferencia entre big data y python?
Big data (big data), un término de la industria de TI, se refiere a una colección de datos que no se pueden capturar, gestionar y procesar con herramientas de software convencionales dentro de un cierto rango de tiempo y requiere nuevos modelos de procesamiento.
Activos de información masivos, de alto crecimiento y diversificados con mayor poder de toma de decisiones, descubrimiento de conocimientos y capacidades de optimización de procesos.
En primer lugar, big data es un gran concepto. Actualmente se utiliza en muchos campos, como Internet, publicidad, finanzas, energía, transporte, etc. Python es un lenguaje de programación que se puede utilizar para procesar y analizar datos generados en diversos campos. Muchos principiantes suelen comparar qué lenguaje es el mejor. De hecho: no existe el mejor lenguaje de programación, solo el más aplicable, es decir, el más aplicable en un escenario determinado. ! ! Muchos amigos suelen gritar en algunos foros que PHP es el primer lenguaje del mundo, Java es el primer lenguaje del universo, la vida es corta, yo uso Python, etc.
Objetivamente, si desea participar en el desarrollo de big data en el futuro, es posible que deba utilizar ambos idiomas. Primero puede aprender uno, porque los idiomas son similares después de aprender uno. , puedes aprender el otro. ¡Es muy rápido! ! ! No te obsesiones con qué idioma aprender. ¡Lo importante es actuar primero y aprender bien un lenguaje de programación! Porque también puedes aprender nuevos idiomas en el futuro. Por ejemplo, ahora que Spark es muy popular, ¡también necesitas aprender Scala!
Recomendado estudiar el "Tutorial de Python"
Alguien comparó una vez Python, Java y C en un foro. Creo que es muy vívido: Python es una bicicleta, solo tómala y. móntelo, pero la velocidad más rápida es de solo 100 kilómetros; Java es un avión de transporte grande, de gran tamaño, que vuela cada vez más rápido; C es un misil, presione el botón de lanzamiento, volará con un zumbido y podrá volar. a varias veces la velocidad del sonido. Después de la comparación, es fácil comenzar, pero Python tiene el peor rendimiento y C tiene el mayor rendimiento. Sin embargo, si quieres controlar C, es como controlar un misil. El costo y la dificultad son mayores, y Java se destaca. Descubrirá que en el ecosistema actual de big data, ¡la gran mayoría de los marcos están escritos en Java o se ejecutan en JVM! ! !
Así es como lo hacen las empresas de Internet: si la cantidad de procesamiento es relativamente grande, primero use Hadoop o Spark para procesarlo una o más veces y luego guarde los resultados procesados. Si la cantidad de datos es pequeña y necesita realizar algo de minería de datos o aprendizaje automático, tenderá a usar Python, porque Python tiene más algoritmos de aprendizaje automático y es más completo. Sin embargo, Hadoop y Spark también tienen bibliotecas de aprendizaje automático correspondientes, como Mahout y Spark MLlib de Hadoop, pero hay relativamente pocos algoritmos y se volverán cada vez más perfectos a medida que pase el tiempo. Entonces, si usar Spark o Python depende de la cantidad de datos y la complejidad del negocio.
En lo que respecta al procesamiento y análisis de big data, Python es más adecuado. Se recomienda aprender Python primero. Después de todo, las tecnologías en el ecosistema de big data son inseparables de Python. para aprender otros idiomas en el futuro!