¿Cuál es la diferencia entre un analista de datos y un científico de datos?
Según mi observación, en realidad existen diferentes definiciones del título de científico de datos en diferentes empresas. Aquellos que prefieren investigadores de datos son más comunes en las grandes empresas de TI. Los científicos de datos de Baidu Brain pertenecen a este tipo. Están involucrados en un aprendizaje profundo relativamente innovador. Por lo general, leo muchos artículos y tal vez los publico yo mismo; todo tipo de empresas lo reservarán. la industria, puede demostrar y comunicar, y puede crear directamente lo que están haciendo. Para el aprendizaje profundo de vanguardia, puede leer muchos artículos o publicarlos usted mismo, se centra en la creatividad de los datos, y todo tipo de empresas se reservarán; Conocen ETL, comprenden los modelos, comprenden la industria, pueden demostrar comunicación y pueden crear valor directamente. Hay algunos, pero muy pocos, que prefieren los desarrolladores de datos. No entienden los modelos. Siempre que les proporciones fórmulas de algoritmos, pueden ayudarte a implementarlos en lenguajes de programación. La implementación de algoritmos es una habilidad importante, pero estas personas no. No entiendo los modelos y no entiendo a las personas de la industria, es poco probable que la mayoría de las empresas hoy en día les den a esas personas el título de científicos de datos. Usando el software de análisis de datos R más comúnmente utilizado como analogía, generalmente es:
Investigador de datos: inventa/mejora algoritmos de modelado y luego escribe paquetes de software para R.
Creador de datos: Alguien que utiliza R para análisis.
Desarrollador de datos: alguien que piensa que R es demasiado simple de usar y ocasionalmente ayuda a los investigadores de datos a escribir paquetes para R.
Hoy en día hay muchos desarrolladores de datos.
A menudo, el de científico de datos es solo uno de los muchos títulos de una organización y no tiene nada de especial. Desde analistas de datos junior, analistas de datos senior hasta analistas de datos senior, estos empleados deben tener capacidades de análisis de datos. En el camino, es necesario promover a los analistas de datos, la empresa necesita motivar a los empleados y sucede que el título de científico de datos es relativamente atractivo. Si el título es más atractivo, ¡llámelo científico de datos! Esta es la lógica de la mayoría de las empresas, que no es más que proporcionar una ruta de promoción técnica comparable a las rutas de promoción gerencial como Asociado, Director General y Vicepresidente.
2. ¿Qué debe ser un científico de datos?
De hecho, todo el mundo está quemando puentes sobre este tema. Me gustaría brindar algunas ideas personales a continuación y agradecer los intercambios.
"Poder completar un proceso de análisis completo de forma independiente" es el valor único e importante de un científico de datos. El informe de O'Relly sobre análisis de datos divide el análisis de datos en tres etapas: extracción e integración de datos; estadísticas de datos, visualización e interpretación complejas, y estas tareas se encomiendan a los desarrolladores, analistas y diseñadores, respectivamente. "Diseñador", eso no está mal en teoría. Pero en el trabajo real, muchos problemas de la empresa no se pueden definir claramente. Por ejemplo, a menudo es imposible asignar el trabajo con tanta precisión como en una línea de montaje; el problema de la empresa a menudo es solo una idea que pasa por la mente del jefe. Con tales problemas, las ideas aún no se han discutido, y mucho menos qué tipo de datos encontrar, dónde encontrar los datos, cómo encontrar los datos y cómo analizar las preguntas de seguimiento.
En este momento, el valor del científico de datos se refleja. Un científico de datos ideal debe ser una combinación de desarrolladores de datos, creativos de datos, investigadores de datos y empresarios de datos. proceso sin un problema claramente definido. En este proceso, la capacidad del científico de datos para controlar todo el proceso de análisis puede ayudarlo a liderar la dirección del proyecto e integrar recursos de todas las partes. Un científico de datos no necesariamente tiene que estar involucrado personalmente en el proceso de desarrollo de tecnología, pero sabe qué tipo de personas con experiencia están calificadas para el trabajo, cómo formar el equipo adecuado y qué tipo de modelos o métodos de análisis pueden usarse. ser aplicado al proyecto. También es necesario saber qué tipo de modelos o métodos de análisis se pueden aplicar, cuáles son sus ventajas y desventajas, cómo mejorarlos, y saber acudir a la comunidad académica para encontrar los últimos resultados de las investigaciones y transformarlos cuando sea necesario; Lo que quiere el jefe y aferrarse siempre a ello. El núcleo del problema debe corregirse a tiempo. Finalmente, transmita este conjunto de métodos para responder estas preguntas para que pueda abordar problemas similares en el futuro.