¿Qué habilidades deben tener los científicos de datos?
Habilidades matemáticas: El cálculo es estrictamente necesario. No es necesario dominar el cálculo multivariable, pero sí se debe dominar y utilizar con soltura el cálculo de una variable. Además, debe dominar el álgebra lineal, especialmente conceptos como operaciones matriciales, espacios vectoriales y rangos. Muchos cálculos en el marco actual de aprendizaje automático requieren la multiplicación, transposición o inversión de matrices. Aunque muchos marcos proporcionan directamente tales herramientas, al menos debemos comprender los principios internos del prototipo, como cómo determinar de manera eficiente si una matriz tiene una matriz inversa y cómo calcularla.
Estadística matemática: es necesario tener conocimientos básicos de la teoría de la probabilidad y de varios métodos estadísticos. Por ejemplo, ¿cómo calcular la probabilidad bayesiana? ¿Cuál es la distribución de probabilidad? Aunque no se requiere competencia, debe comprender los antecedentes y la terminología relevantes.
Marco de análisis de datos interactivo: No se refiere a consultas SQL o bases de datos, sino a marcos de análisis interactivos como Apache Hive o Apache Kylin. Existen muchos marcos similares en la comunidad de código abierto, que pueden utilizar métodos tradicionales de análisis de datos para realizar análisis de datos o extracción de datos en big data. El autor tiene experiencia en el uso de Hive y Kylin. Sin embargo, Hive, especialmente Hive1, se basa en MapReduce y su rendimiento no es particularmente bueno. Kylin utiliza el concepto de cubo de datos combinado con el modelo estrella para lograr una velocidad de análisis de latencia muy baja. Además, Kylin es el primer equipo de I + D cuya fuerza principal es. Chino. El proyecto de incubación de Apache ha recibido cada vez más atención.
Marco de aprendizaje automático: el aprendizaje automático está muy de moda en el mundo en este momento. Todo el mundo menciona el aprendizaje automático y la inteligencia artificial, pero el autor siempre ha creído que el aprendizaje automático es como la computación en la nube hace unos años. Actualmente es popular, no tiene aplicación práctica. La implementación del proyecto puede tardar varios años en madurar. Pero nunca está de más empezar a acumular conocimientos sobre aprendizaje automático ahora. Cuando se trata de marcos de aprendizaje automático, hay muchos con los que todos están familiarizados, incluidos TensorFlow, Caffe8, Keras9, CNTK10, Torch711, etc., entre los cuales TensorFlow lidera el camino. Actualmente, el autor recomienda que elija uno de los marcos para estudiar, pero según mi comprensión de estos marcos, la mayoría de estos marcos encapsulan convenientemente varios algoritmos de aprendizaje automático para que los usen los usuarios, pero en realidad no tengo mucha comprensión de la base. algoritmos Algo de lo que aprender. Por lo tanto, el autor todavía recomienda aprender de los principios de los algoritmos de aprendizaje automático.