¿Cuáles son los lenguajes de programación de datos?
1. Lenguaje Python
Si sus científicos de datos no usan R, probablemente conozcan Python por dentro y por fuera. Python ha sido popular en el mundo académico durante más de una década, especialmente en campos como el procesamiento del lenguaje natural (PNL). Por lo tanto, si tiene un proyecto que requiere procesamiento de PNL, se enfrentará a una cantidad vertiginosa de opciones, incluido el NTLK clásico, el modelado de temas utilizando GenSim o el ultrarrápido y preciso spaCy. De manera similar, cuando se trata de redes neuronales, Python se encuentra igualmente en casa, incluidos Theano y Tensorflow, seguidos de scikit-learn para el aprendizaje automático y NumPy y Pandas para el análisis de datos.
También está Juypter/iPython, un marco de servidor portátil basado en web que le permite mezclar código, gráficos y prácticamente cualquier objeto en un formato de registro compartible. Esta siempre ha sido una de las características principales de Python, pero hoy en día, el concepto ha demostrado ser tan útil que aparece en casi todos los lenguajes que siguen el concepto de bucle de lectura-lectura-salida (REPL), incluidos Scala y R.
Python a menudo es compatible con marcos de procesamiento de big data, pero al mismo tiempo, a menudo no es un "ciudadano de primera clase". Por ejemplo, las nuevas funciones en Spark casi siempre aparecen primero en los enlaces de Scala/Java, y puede ser necesario escribir varias versiones menores de esas actualizaciones en PySpark (esto es especialmente cierto para las herramientas de desarrollo en Spark Streaming/MLLib).
A diferencia de R, Python es un lenguaje tradicional orientado a objetos, por lo que la mayoría de los desarrolladores se sentirán bastante cómodos usándolo, mientras que el primer contacto con R o Scala puede resultar intimidante. Un pequeño problema es que necesitas dejar el espacio en blanco correcto en tu código. Esto divide a la gente en dos bandos, los que piensan "esto es muy útil para garantizar la legibilidad" y los que piensan que no deberíamos forzar al intérprete a hacer que el programa se lea sólo porque un carácter en una línea de código no está en el lugar correcto. Ponte en marcha. 2. Lenguaje R
En los últimos años, el lenguaje R se ha convertido en el favorito de la ciencia de datos: la ciencia de datos ahora no solo es muy conocida entre los estadísticos nerds, sino también un nombre familiar entre los operadores de Wall Street. , biólogos y desarrolladores de Silicon Valley. Empresas de diversos sectores, como Google, Facebook, Bank of America y el New York Times, utilizan R, y R continúa extendiéndose y proliferando para uso comercial.
El lenguaje R tiene un atractivo simple pero obvio. Con R, con solo unas pocas líneas de código, puede examinar conjuntos de datos complejos, procesar datos con funciones de modelado avanzadas y crear gráficos planos para representar números. Se ha comparado con una versión hiperactiva de Excel.
El mayor activo del lenguaje R es el vibrante ecosistema que se ha desarrollado a su alrededor: la comunidad del lenguaje R siempre está agregando nuevos paquetes y características a su ya rico conjunto de características. Se estima que más de 2 millones de personas usan R, y una encuesta reciente mostró que R es, con diferencia, el lenguaje más popular para datos científicos, utilizado por el 61% de los encuestados (seguido por Python con un 39%). 3. JAVA
? Se ha descubierto que Java y los marcos basados en Java se han convertido en el esqueleto de las empresas de alta tecnología más grandes de Silicon Valley. "Si nos fijamos en Twitter, LinkedIn y Facebook, Java es el lenguaje subyacente de toda su infraestructura de ingeniería de datos", dijo Driscoll.
Java no proporciona la misma calidad de visualización que R y Python, y no es la mejor opción para el modelado estadístico. Sin embargo, si está dejando atrás la creación de prototipos y necesita construir sistemas grandes, Java suele ser su mejor opción.
4. Hadoop y Hive
Se ha desarrollado un grupo de herramientas basadas en Java para satisfacer las enormes necesidades del procesamiento de datos. Hadoop ha despertado entusiasmo como el marco preferido basado en Java para el procesamiento de datos por lotes.
Hadoop es más lento que otras herramientas de procesamiento, pero es sorprendentemente preciso y, por lo tanto, se utiliza ampliamente para el análisis backend. Combina bien con Hive, un marco basado en consultas que se ejecuta en la parte superior.