Visualización de datos, ¿qué software se debe utilizar para mostrar datos?
1. Utilice el software con el que esté más familiarizado
Aprender a utilizar la programación para crear visualizaciones de datos no significa abandonar las herramientas con las que ya está familiarizado. Generalmente uso cualquier herramienta que pueda resolver el problema más rápido, que puede ser Excel, Google Sheets o Python.
No es necesario hacer todo solo en R o solo en JavaScript, y existen ventajas al incluir diferentes herramientas en un solo trabajo. Su objetivo final es crear un gráfico visual, y los resultados de cada paso lo guiarán al siguiente, así que no se obsesione demasiado con hacer las cosas de la manera "correcta".
2. Comienza con lo básico
No esperes crear efectos visuales muy avanzados e impresionantes en tu primer intento. Especialmente en las primeras etapas de aprendizaje, tienes mucho por hacer, así que comienza con lo básico y luego avanza lentamente hacia técnicas más avanzadas. De esta manera no te sentirás abrumado al principio ni perderás la esperanza de aprender.
En el lenguaje R, hay muchos kits de herramientas que pueden ayudarte a hacer cosas y, a veces, solo necesitas usar una función. Pero si no está familiarizado con la sintaxis de programación R, le recomiendo que comience con el lenguaje R más básico, aunque puede resultar un poco difícil.
Al igual que la biblioteca JavaScript d3.js que mencioné antes, si no estás familiarizado con JavaScript o acabas de empezar a aprender programación, muchas cosas similares te parecerán difíciles. Te sugiero que comiences con el tutorial básico escrito por Mike Bostock y poco a poco empieces a comprender lo que estás haciendo.
3. Encuentra un proyecto para completar
No creas que tienes que aprender todo antes de comenzar el proyecto, de lo contrario te retrasarás. Puede comenzar aprendiendo algunos conocimientos básicos. Esto al menos garantizará que cuando encuentre problemas y busque en línea en el futuro, podrá comprender las soluciones.
Selecciona algunos datos y comienza a visualizarlos. Definitivamente el progreso será lento al principio y es normal sentirse confundido. Incluso ahora, todavía estoy confundido por algunos problemas, pero debes perseverar y terminar.
El beneficio de realizar un proyecto es que te obliga a aprender lo que necesitas saber. Cada vez que terminas un proyecto, el siguiente se vuelve más fácil.
Normalmente un proyecto de visualización de datos se divide en los siguientes pasos.
Procesamiento y formato de datos
Python
Cuando tengo un archivo separado no rectangularmente o los datos están desordenados, escribo algún script especial de Python. Si tengo suerte, encontraré y reutilizaré scripts existentes del pasado. A veces se usa Beautiful Soup para decoración y, a veces, se usa csvkit.
R
Solo uso R cuando necesito cargar tablas en formato csv, generalmente solo para agregar, fusionar o procesar partes derivadas de los datos originales.
Tabula
Se utiliza principalmente para datos públicos del gobierno, incluidos los datos involucrados en archivos PDF. Sin Tabula este proceso sería muy doloroso.
Microsoft Excel
Úselo sólo cuando sea necesario. Los datos se leen en Excel y luego se importan a una herramienta como Numbers u OpenOffice.
Google Sheets
A veces, usar una hoja de cálculo es más rápido que escribir un guión y me encanta la simplicidad del proceso.
Analizar los datos
Antes de poder hacer el gráfico final, es necesario comprender el conjunto de datos.
R
Lo que estoy pensando aquí es R. Debido a que R es un lenguaje de computación estadística de código abierto, tiene una comunidad rica, innumerables paquetes de extensión y una gran cantidad de preguntas respondidas en Stack Overflow.
Hacer gráficos estáticos
Esto normalmente implica dos etapas para mí: (i) visualización en R (ii) pulido en Illustrator;
R
Hay paquetes de herramientas de visualización en R, como ggplot2, pero yo casi todos uso las funciones que vienen con R, es decir, la base R.
Adobe Illustrator
Si los gráficos se van a publicar para que otros los vean, guardaré los gráficos generados por R en formato PDF y los editaré en Illustrator. Es un poco excesivo, pero el efecto es bastante bueno. También estoy considerando probar Sketch.
Creación de gráficos interactivos
Flash ya está disponible y JavaScript es el nuevo favorito. R no se usa mucho aquí.
d3.js
Utilizo documentación basada en datos para la visualización interactiva de datos (todavía estoy aprendiendo). Hay muchos ejemplos para probar. Pero si quiero completar un diagrama rápidamente, a veces pruebo Vega-Lite.
4. Lee atentamente la guía de programación y los ejemplos.
La guía de programación es muy útil. Puede que al principio te cueste, pero hay que acostumbrarse. Si hay un problema con su programa, lo más probable es que se deba a que lo escribió incorrectamente, más que a que haya un problema con la implementación del código. Entonces, en este momento debe leer la guía detenidamente para confirmar que el uso de la función es correcto.
En el lenguaje R, las guías para todas las funciones están escritas en el mismo formato. Le indicarán qué parámetros tiene la función, cuál es el valor de retorno y luego le darán ejemplos de uso. muy clásico.
Mike Bostock, el creador de la biblioteca d3.js, ha escrito una guía muy buena y hay muchos otros tutoriales en línea. La gran cantidad de ejemplos incluidos en la guía de Bostock son muy útiles. Siempre que encuentro un problema y busco soluciones en línea, suelo buscar el problema junto con "mbostock".
5. Empieza a hacerlo
A veces dudo en empezar porque pienso demasiado, pero siempre que puedas empezar y seguir los consejos anteriores, puedes ahorrar mucho tiempo. . Generalmente existe una práctica recomendada para utilizar herramientas para visualizar datos, pero no es necesario buscarlas desde el principio. Pruebe primero las formas y los colores en la pantalla, luego recopile los datos para que en general se vean bien. Si algo no se ve bien (especialmente para proyectos de visualización que involucran interoperabilidad y animación), busque una mejor manera de hacerlo. En general, su gráfico será correcto incluso si no es óptimo.