Red de conocimiento informático - Aprendizaje de código fuente - Preguntas comunes de la entrevista para analistas de datos

Preguntas comunes de la entrevista para analistas de datos

Una colección de preguntas de entrevista comunes para analistas de datos

1. ¿Cuál es la mayor cantidad de datos que ha procesado? ¿Cómo los procesó?

2. Cuénteme sobre dos proyectos relacionados con análisis o informática. ¿Cómo midió sus resultados?

3. ¿Qué es: valor de mejora, clave? Indicadores de rendimiento, robustez, cumplimiento del modelo, diseño experimental, principio 2/8.

4. ¿Qué son: filtrado colaborativo, n-gramas, reducción de mapas, distancia del coseno? ¿Cómo hacer que un rastreador web sea más rápido, extraiga mejor información y resuma mejor los datos para obtener una base de datos limpia?

6. ¿Cómo diseñar una solución al plagio?

p>

7. ¿Cómo? para verificar que varias personas utilizan una cuenta de pago personal

8. Los datos del flujo de clics deben procesarse en tiempo real ¿Por qué? 9. ¿Qué crees que es mejor: buenos datos o un buen modelo? ¿Y cómo se define "bueno"? ¿Existe un modelo que sea universal en todas las situaciones? p >

10. ¿Qué es la fusión probabilística (también conocida como fusión difusa)? ¿Es más fácil usar SQL u otros lenguajes? ¿Qué lenguaje elegiría para procesar datos semiestructurados? ¿Cómo lidiar con los datos faltantes? ¿Qué técnicas de procesamiento recomiendas?

12. ¿Cuál es tu lenguaje de programación favorito?

13. ¿Cuál es tu software estadístico favorito? Te cuento 3 razones por las que te gusta y no te gusta.

14. ¿Cuál es la diferencia entre los lenguajes sas, r, python y perl?

15. ¿Cuál es la maldición del big data?

16. ¿Tienes? participó en la base de datos y en el diseño del modelo de datos

17. ¿Ha participado en el diseño de paneles y selección de indicadores? ¿Qué piensa sobre la inteligencia empresarial y las herramientas de generación de informes? > 18. ¿Te gusta ¿Cuáles son las características de la base de datos td?

19. ¿Cómo planeas enviar 1 millón de correos electrónicos de campañas de marketing? ¿Cómo se optimiza el envío? ¿Cómo se optimiza la tasa de respuesta? ¿Se pueden separar estas dos optimizaciones?

20. Si hay varios clientes consultando la base de datos de Oracle, la eficiencia es muy baja.

¿Por qué? ¿Qué puedes hacer para aumentar la velocidad más de 10 veces y manejar mejor grandes cantidades de resultados?

21. ¿Cómo convertir datos no estructurados en datos estructurados? ¿Es mejor guardar los datos en un archivo de texto plano que en una base de datos relacional?

22. ¿Qué es un ataque de colisión de tabla hash? ¿Con qué frecuencia ocurre? >

23. ¿Cómo juzgar si el proceso mapreduce tiene un buen equilibrio de carga? ¿Qué es el equilibrio de carga?

24. ¿En qué escenarios de aplicación funciona bien? Nube ¿Cuáles son los problemas de seguridad?

25. (Siempre que la memoria sea suficiente), ¿crees que es mejor tener 100 tablas hash pequeñas o una tabla hash grande, en términos internos o en ejecución? ¿Evaluación del análisis de la base de datos?

26. ¿Por qué Naive Bayes es malo? ¿Cómo se utiliza Naive Bayes para mejorar el algoritmo de inspección del rastreador? ?Reglas principales? (En caso de fraude o detección de rastreo)

28. ¿Qué es un esquema en estrella? ¿Qué es una tabla de consulta?

29. ¿Puedes usar Excel para construir lógica? ¿Es un modelo de regresión? ¿Cómo se puede hacer? Explique el proceso de establecimiento.

30. En el proceso de programación de SQL, Perl, C, Python, etc., ¿ha optimizado el código relevante? ¿Algoritmo para mejorar la velocidad? ¿Cómo y cuánto se puede mejorar?

31. ¿Qué solución tarda 5 días en completar el 90% de precisión o tarda 10 días en completar el 100% de precisión?

32. Definición: qa( Quality Assurance), Six Sigma, Diseño de Experimentos. ¿Puedes dar ejemplos de buenos y malos diseños experimentales?

33. ¿Cuáles son las deficiencias de los modelos de regresión lineal ordinarios? ¿Conoces otros modelos de regresión? ?Son mejores los árboles de decisión con menos de 50 hojas que los más grandes

35. ¿Es la ciencia actuarial una rama de la estadística?

¿Por qué? con un caso de datos que no se ajusta a la distribución gaussiana ni a la distribución lognormal. Dé un caso de números con una distribución muy caótica.

37. ¿Por qué el error cuadrático medio no es un buen indicador para medir el modelo? ¿Qué indicador recomiendas utilizar en su lugar?

38. ¿Cómo demuestras que el algoritmo mejora? que traes son reales en comparación con no hacer cambios? ¿Estás familiarizado con las pruebas a/b?

39. ¿Qué es el análisis de sensibilidad? ¿Tiene menor sensibilidad (es decir, mejor solidez)? Lo contrario de bajo poder predictivo. ¿Cómo se utiliza la validación cruzada? ¿Qué opinas de la idea de insertar datos de ruido en el conjunto de datos para probar la sensibilidad del modelo? regresión, árbol de decisión, red neuronal. ¿Qué mejoras importantes se han realizado en estas tecnologías en los últimos XX años?

41. Además del análisis de componentes principales, ¿también utiliza otras técnicas de reducción de dimensionalidad de datos? ¿Está familiarizado con la tecnología de regresión por pasos? ¿Cuáles existen? ¿Cuándo son mejores los datos completos que los datos reducidos dimensionalmente o las muestras?

¿Cómo sugiere un intervalo de confianza no paramétrico? p> 43. ¿Está familiarizado con la teoría del valor extremo, la lógica de Monte Carlo u otros métodos estadísticos matemáticos para evaluar correctamente la probabilidad de un evento disperso?

¿Qué es el análisis de atribución? coeficientes de correlación?

45. ¿Cómo definir y medir el poder predictivo de un indicador?

46. ¿Cómo descubrir el mejor conjunto de reglas para la tecnología de puntuación de detección de fraude? y descubrimiento de reglas? ¿Y la pregunta esencial entre los dos? ¿Es factible una solución aproximada a un conjunto de reglas? ¿Cómo se decide que esta solución es lo suficientemente buena como para dejar de buscar otra mejor? p>

47. ¿Cómo crear una clasificación de palabras clave?

48. ¿Qué es una botnet?

49. ¿Tienes experiencia usando interfaces API? ¿Qué tipo de API? ¿Es Google, Amazon o un servicio instantáneo de software?

50. ¿Cuándo es mejor codificar su propio código en lugar de utilizar un paquete de software desarrollado por científicos de datos? > 51. ¿Qué herramientas utilizar para la visualización? En términos de diagramación, ¿cómo se evalúa que Tableau?r?sas muestre efectivamente cinco dimensiones en un diagrama?

52. ¿Qué es una prueba de concepto? /p>

53. ¿A qué se dedica principalmente? ¿Con qué tipo de clientes trabaja: internos, externos, gente del departamento de ventas/departamento de finanzas/departamento de marketing/departamento de TI? ¿Tiene experiencia en consultoría? proveedores, incluida la selección y prueba de proveedores?

54. ¿Está familiarizado con el ciclo de vida del software y el ciclo de vida de los proyectos de TI, desde los requisitos de ingresos hasta el mantenimiento del proyecto?

¿Qué es una tarea cron? p>

56. ¿Eres un codificador único? ¿O un desarrollador?

57. ¿Es mejor el falso positivo o el falso negativo?

¿Está familiarizado con la optimización de precios, la elasticidad de los precios, la gestión de inventarios y la inteligencia competitiva? Dé un caso a cada caso.

59. ¿Cómo funciona el algoritmo de Zillow?

60. ¿Cómo detectar comentarios falsos o cuentas de FB falsas con malos propósitos?

61. ¿Cómo se crean? una nueva cuenta digital anónima?

62. ¿Alguna vez has pensado en iniciar tu propio negocio? ¿Qué opinas?

63. ¿Qué opinas sobre el ingreso de cuentas y contraseñas? el cuadro de inicio de sesión de ¿En qué circunstancias?

65. ¿Qué científico de datos admiras más?

66. ¿Cómo te interesaste en la ciencia de datos? p>

p>

67. ¿Qué son las curvas de eficiencia? ¿Cuáles son sus defectos y cómo se superan?

68. ¿Qué es un motor de recomendación? p>

69. ¿Qué son las pruebas de precisión? ¿Cómo y cuándo puede ayudarnos la simulación a no utilizar pruebas de precisión?

70. ¿Qué crees que caracteriza a un buen científico de datos? > 71. ¿Crees que un científico de datos es un artista o un científico?

72. ¿Cuál es la complejidad computacional de un buen algoritmo de agrupamiento rápido? ¿Qué es un buen algoritmo de agrupamiento? ¿Un clúster? ¿Jushu?

73. Dé algunos “casos de mejores prácticas” en ciencia de datos.

74. ¿Qué hace que un gráfico sea engañoso, difícil de leer o interpretar? Características de un gráfico útil

75. ¿Sabes cómo usarlo en estadística o ciencia computacional? “regla general” en ? O en análisis de negocios.

76. ¿Cuáles crees que son los cinco mejores métodos de predicción para los próximos 20 años?

77. ¿Cómo puedes conocer inmediatamente las estadísticas publicadas en un artículo (como por ejemplo un periódico)? ) ¿Las cifras son incorrectas o se utilizan para respaldar el argumento del autor en lugar de simplemente enumerar información sobre algo? Por ejemplo, ¿qué opinas de las estadísticas de desempleo que el funcionario publica periódicamente en los medios cada mes? ¿Hacer estos datos más precisos?;