Red de conocimiento informático - Conocimiento informático - Diez reglas para lograr resultados de investigación de ciencia de datos repetibles

Diez reglas para lograr resultados de investigación de ciencia de datos repetibles

Diez reglas para lograr resultados de investigación en ciencia de datos reproducibles

En un artículo, un grupo de investigadores describe diez reglas para una investigación computacional reproducible. Si sigue estas reglas, puede producir resultados más repetibles.

Toda ciencia de datos es investigación. Incluso si los resultados de la investigación no se publican en artículos académicos, eso no cambia el hecho de que estamos tratando de obtener información a partir de montones de datos. Por lo tanto, cualquier científico de datos que trabaje en análisis internos debe tomar en serio las diez reglas de este documento. Regla 1: Para cada resultado, documente el proceso mediante el cual se produjo. Es importante comprender el proceso mediante el cual se produjeron los resultados de la investigación. Si escribe scripts de análisis en un lenguaje de programación (R, Python, Julia, F#, etc.), el proceso de análisis debe ser claro y evitar pasos manuales. Si está utilizando una herramienta de "apuntar y hacer clic con el mouse" (como Excel), esto hará que documentar los pasos sea más difícil porque debe describir una serie de acciones manuales que son difíciles de registrar y reproducir. Regla 2: Evite los pasos de procesamiento manual de datos Es posible que tenga la tentación de abrir el archivo de datos en un editor y corregir manualmente los errores de formato o eliminar los valores atípicos. Además, los sistemas operativos modernos le permiten cortar y pegar aplicaciones con facilidad. Sin embargo, debes resistir la tentación de tomar atajos. La manipulación manual de datos es una operación que no puede mostrar rastros. Regla 3: Archive versiones precisas de todos los programas externos utilizados. Lo ideal es crear una máquina virtual que contenga todo el software que ejecuta el script. Esto le permite generar instantáneas de su ecosistema de análisis para lograr fácilmente resultados reproducibles. Sin embargo, esto no siempre es posible. Por ejemplo, si está utilizando un servicio en la nube o el conjunto de datos que está analizando es muy grande, puede resultar difícil reunir todo el entorno para archivarlo. Además, el uso de herramientas comerciales puede dificultar compartir dicho entorno con otras personas. Como mínimo, debe realizar un seguimiento de todas las versiones del software que utiliza, incluidas las versiones de su sistema operativo. Cualquier pequeño cambio en el software puede afectar los resultados. Regla 4: registrar versiones de todos los scripts personalizados. Debe utilizar un sistema de control de versiones (como Git) para registrar versiones de sus scripts. Debe etiquetar (instantáneas) varios scripts e indexar esa etiqueta en los resultados generados. De esta manera, si luego decide cambiar su secuencia de comandos (lo cual definitivamente hará), podrá encontrar la secuencia de comandos exacta que produce un resultado específico a tiempo. Regla 5: Intente registrar todos los resultados intermedios en un formato estándar. Si sigue la Regla 1, entonces es posible reproducir cualquier resultado a partir de los datos originales. Sin embargo, si bien esto es teóricamente posible, en la práctica existen limitaciones. Los problemas pueden incluir: Falta de recursos para ejecutar resultados desde cero (p. ej., uso de grandes recursos informáticos en clúster) Uso de herramientas comerciales sin licencias para ciertas herramientas Capacidad técnica insuficiente para usar ciertas herramientas En estos casos, no es imprudente derivar datos sin procesar Conjuntos de datos empezar con. Estos conjuntos de datos intermedios (como los que están en formato CSV) brindan más opciones de análisis y, cuando ocurren errores, es más fácil identificar resultados problemáticos sin tener que empezar de nuevo. Regla 6: Para los análisis con naturaleza estocástica, los datos semilla aleatorios subyacentes deben registrarse. Los científicos a menudo no establecen valores semilla para sus análisis y, por lo tanto, no pueden replicar con precisión los estudios de aprendizaje automático. Muchos algoritmos de aprendizaje automático contienen un componente estocástico y, si bien los resultados sólidos pueden ser reproducibles desde una perspectiva estadística, la coherencia con los datos precisos generados por otros es primordial. Si utiliza secuencias de comandos y control de fuente, puede establecer el valor inicial en la secuencia de comandos. Regla 7: Guarde siempre los datos sin procesar. Si utiliza un lenguaje de programación/script, los gráficos generalmente se generan automáticamente. Pero si estás creando gráficos usando una herramienta como Excel, asegúrate de guardar los datos originales. Esto permite que el gráfico sea reproducible y también permite un examen más detallado de los datos detrás del gráfico. Regla 8: Generar resultados de análisis por niveles para permitir el examen de niveles cada vez más detallados. Los científicos de datos resumen los datos de alguna forma para obtener información a partir de ellos. Sin embargo, la agregación también puede conducir fácilmente a un uso indebido de los datos, por lo que los involucrados deberían poder dividir la agregación en puntos de datos individuales. Para cada resultado resumido, relaciónelo con los datos utilizados para que se puedan hacer inferencias sobre el resultado resumido. Regla 9: Relacionar las representaciones verbales con los resultados potenciales En última instancia, los resultados del análisis de datos se presentan en forma verbal, lo cual es impreciso. A veces es difícil determinar la conexión entre las conclusiones y el análisis.

Dado que el artículo suele ser la parte más impactante de un estudio científico, es crucial conectar el artículo con los resultados y, según la Regla 1, también es importante conectar el artículo con los datos originales. Esto se puede lograr agregando notas a pie de página al texto. Los documentos o URL citados en notas a pie de página deben contener datos específicos que conduzcan a las observaciones encontradas en el artículo. Si no puede realizar esta conexión, es posible que no haya documentado adecuadamente todos los pasos. Regla 10: Divulgar guiones, procesos y resultados En un entorno empresarial, puede no ser apropiado divulgar todos los datos. Sin embargo, está bien exponer datos a otras personas dentro de su organización. Los sistemas de control de fuente basados ​​en la nube, como Bitbucket y GitHub, permiten la creación de almacenamiento privado al que puede acceder cualquier colega autorizado. La revisión colaborativa mejora la calidad de su análisis, por lo que cuanto más comparta, mayor será la calidad de su análisis.