¿Python es adecuado para procesar grandes cantidades de datos?
La ventaja de Python no radica en la eficiencia operativa, sino en la eficiencia del desarrollo y la alta capacidad de mantenimiento. Elegir la herramienta adecuada para un problema específico también es una habilidad técnica.
Ventajas de Python en el procesamiento de datos (no big data):
1. La velocidad de desarrollo es extremadamente rápida y la cantidad de código es extremadamente pequeña.
2. Los paquetes de procesamiento de datos enriquecidos, ya sean convencionales o no, análisis html y análisis xml, son muy convenientes de usar.
3. El costo de usar tipos internos es extremadamente bajo y no se requieren operaciones adicionales (es difícil usar un mapa en Java y C++).
En las empresas muchas tareas de tratamiento de datos no requieren afrontar datos de gran tamaño.
5. Una enorme cantidad de datos no se puede resolver con el lenguaje. Aunque el marco (hadoop, mpi) que necesita procesar datos es muy pequeño, Python todavía tiene un marco para procesar big data, o algunos marcos también son compatibles con Python.
Datos extendidos:
Desventajas del procesamiento de datos de Python:
Desventajas del procesamiento de big data de Python:
1. , A menudo se dice que los subprocesos múltiples solo se pueden ejecutar en un núcleo, lo cual es un desperdicio de servidores de múltiples núcleos. Esto es fatal en un escenario común: hay una gran cantidad de datos que se comparten o utilizan entre unidades concurrentes (como un gran dict).
Múltiples procesos provocarán una memoria insuficiente, pero los subprocesos múltiples no pueden resolver el problema del intercambio de datos. Escribir un proceso separado para mantener y leer estos datos no solo es ineficiente, sino también engorroso.
2. La eficiencia de ejecución de Python no es alta y no es eficiente al procesar big data. Es cierto. pypy (un intérprete jit python, que puede entenderse como una aceleración del lenguaje de script) puede mejorar en gran medida la velocidad, pero pypy no admite muchos paquetes clásicos de Python, como numpy.
3. Para la mayoría de las grandes empresas, será mucho mejor utilizar Java para procesar big data, tanto en términos de entorno como de acumulación.
Enciclopedia Baidu-Python