Si quieres convertirte en científico de datos, ¿a qué especialidad deberías postularte?
Matemáticas o informática.
(1) Ciencias de la Computación
En términos generales, la mayoría de los científicos de datos deben tener experiencia profesional relacionada con la programación y la informática. En pocas palabras, son las habilidades relacionadas con tecnologías de procesamiento paralelo a gran escala como Hadoop y Mahout y el aprendizaje automático las que son necesarias para procesar big data.
¿Cómo empezar a aprender Hadoop desde cero?
Si desea dedicarse a trabajos relacionados con big data y procesamiento masivo de datos, ¿cómo puede aprender los conceptos básicos usted mismo?
(2) Matemáticas, estadística, minería de datos, etc.
Además de los conocimientos de matemáticas y estadística, también es necesario tener las habilidades para utilizar software de análisis estadístico convencional, como como SPSS y SAS. Entre ellos, el lenguaje de programación de código abierto y su entorno operativo "R" para análisis estadístico han atraído mucha atención recientemente. La fortaleza de R no es solo que contiene una rica biblioteca de análisis estadístico, sino que también tiene capacidades de generación de gráficos de alta calidad para visualizar resultados, que se pueden ejecutar mediante comandos simples. Además, también tiene un mecanismo de extensión de paquete llamado CRAN (The Comprehensive R Archive Network). Al importar el paquete de extensión, puede utilizar funciones y conjuntos de datos que no son compatibles con el estado estándar. Aunque el lenguaje R es poderoso, la curva de aprendizaje es relativamente pronunciada. Personalmente recomiendo comenzar con Python, que tiene bibliotecas estadísticas ricas, NumPy, SciPy.org, Python Data Analysis Library, matplotlib: python plotting.
¿Cómo aprender a realizar minería de datos de forma sistemática?
¿Cuáles son los libros imprescindibles para el análisis de datos?
¿Cómo aprender a utilizar el lenguaje R para minería de datos?
(3) Visualización de Datos (Visualización)
La calidad de la información depende en gran medida de su expresión. Es muy importante que los científicos de datos analicen el significado contenido en los datos compuestos por listas numéricas, desarrollen prototipos web y utilicen API externas para unificar gráficos, mapas, paneles y otros servicios para visualizar los resultados del análisis.
¿Qué herramientas de visualización de datos vale la pena recomendar?
(4) El transfronterizo es el rey
McKinsey cree que en el futuro se necesitarán más “traductores”, tipos compuestos que puedan construir un puente entre la tecnología de TI, el análisis de datos y La toma de decisiones empresariales es el talento. Los "traductores" pueden impulsar el diseño y la ejecución de toda la estrategia de análisis de datos, mientras conectan a los equipos de TI, análisis de datos y unidades de negocios. Incluso tener estrategias y herramientas de análisis de datos de alta gama no será de ayuda si faltan "traductores".