Red de conocimiento informático - Consumibles informáticos - Preguntas frecuentes sobre cómo entrevistar a analistas de datos

Preguntas frecuentes sobre cómo entrevistar a analistas de datos

Preguntas frecuentes sobre cómo entrevistar a analistas de datos. Los analistas de datos se refieren a profesionales que se especializan en recopilar, organizar y analizar datos industriales de diferentes industrias, y en realizar investigaciones, evaluaciones y predicciones industriales basadas en los datos. Entonces, ¿a qué preguntas de la entrevista se enfrentan los solicitantes de empleo cuando solicitan el puesto de analista de datos?

1. ¿Nombra dos proyectos relacionados con la analítica o la informática? ¿Cómo se miden los resultados?

2. ¿Cómo hacer que un rastreador web sea más rápido, extraiga mejor información, resuma mejor los datos y obtenga una base de datos limpia?

3. ¿Cuál es el valor de promoción, los indicadores clave de rendimiento, la solidez, el ajuste del modelo, el diseño experimental y el principio 2/8?

4. ¿Qué son el filtrado colaborativo, los n-gramas, la reducción de mapas y la distancia del coseno?

5. ¿Deben procesarse los datos del flujo de clics en tiempo real? ¿Por qué? ¿Qué parte debe procesarse en tiempo real?

6. ¿Cómo diseñar una solución al plagio?

7. ¿Cómo verificar que una cuenta de pago personal sea utilizada por varias personas?

8. ¿Qué es la fusión probabilística (también conocida como fusión difusa)? ¿Es más fácil utilizar el procesamiento SQL u otros lenguajes? ¿Qué lenguaje elegirías utilizar para procesar datos semiestructurados?

9. ¿Qué crees que es mejor, unos buenos datos o un buen modelo? Además, ¿cómo se define "bueno"? ¿Existe un modelo general que se aplique a todas las situaciones? ¿No sabes que algunos modelos no son tan fáciles de definir?

10. ¿Cuál es tu lenguaje de programación favorito? ¿Por qué?

¿Cómo afrontáis la falta de datos? ¿Qué técnicas de procesamiento se recomiendan?

12. ¿Cuál es la maldición del big data?

13. Cuéntame tres razones por las que te gusta más el software estadístico.

14. ¿Cuáles son las diferencias entre los lenguajes SAS, R, Python y Perl?

15. ¿Qué características de la base de datos TD te gustan?

16. ¿Has participado alguna vez en el diseño de bases de datos y modelos de datos?

17. ¿Has participado alguna vez en el diseño de cuadros de mando y en la selección de indicadores? ¿Qué piensa sobre la inteligencia empresarial y las herramientas de generación de informes?

18. Por favor, dé un ejemplo de cómo funciona mapreduce. ¿En qué escenarios de aplicación es eficaz? ¿Cuáles son los problemas de seguridad con la nube?

19. ¿Cómo planeas enviar 10.000 correos electrónicos de campañas de marketing? ¿Cómo se optimiza la entrega? ¿Cómo se optimiza la velocidad de reacción? ¿Se pueden separar estas dos optimizaciones?

20. Si varios clientes consultan la base de datos ORACLE, la eficiencia es baja. ¿Por qué? ¿Qué se puede hacer para aumentar la velocidad más de 10 veces y manejar mejor grandes cantidades de producción?

21. ¿Cómo convertir datos no estructurados en datos estructurados? ¿Es realmente necesaria tal transformación? ¿Es mejor guardar datos como un archivo de texto plano que como una base de datos relacional?

22. ¿Qué es un ataque de colisión de tabla hash? ¿Cómo evitarlo? ¿Con qué frecuencia sucede?

23. ¿Cómo juzgar si el proceso mapreduce tiene un buen equilibrio de carga? ¿Qué es el equilibrio de carga?

24. ¿Alguna vez has tenido que lidiar con las listas blancas? ¿La regla principal? (En caso de fraude o verificación de rastreo)

25. ¿Crees que 100 tablas hash pequeñas o una tabla hash grande son mejores, en términos internos o de velocidad de ejecución? ¿Evaluación del análisis de bases de datos?

26. ¿Por qué Naive Bayes es tan malo? ¿Cómo mejorar el algoritmo de detección de rastreadores utilizando Naive Bayes?

27. ¿Cuáles son las deficiencias de los modelos de regresión lineal ordinarios? ¿Conoce otros modelos de regresión?

28. ¿Qué es un modelo famoso? ¿Qué es una tabla de búsqueda?

29. ¿Puedes usar Excel para construir un modelo de regresión logística? ¿Cómo explico el proceso de construcción?

30. En el proceso de programación de SQL, Perl, C, Python, etc.

, ¿se ha optimizado el código o algoritmo relevante para la velocidad? ¿Cómo es?

31. ¿La solución tiene una precisión del 90% en 5 días o la solución con una precisión del 10% en 10 días? ¿Qué contenido quieres ver?

32. Definición: QA (Quality Assurance), Six Sigma y Diseño Experimental. ¿Puedes dar un ejemplo de buen y mal diseño experimental?

33. ¿Qué es el análisis de sensibilidad? ¿Es mejor una menor sensibilidad (es decir, una mayor robustez) que un menor poder predictivo, o es al revés? ¿Cómo se utiliza la validación cruzada? ¿Qué opinas de la idea de insertar datos ruidosos en el conjunto de datos para probar la sensibilidad del modelo?

34. ¿Crees que un árbol de decisión con menos de 50 hojas es mejor que uno más grande? ¿Por qué?

35. ¿Es la ciencia actuarial una rama de la estadística? Si no, ¿por qué?

36. Dé un caso de datos que no se ajuste a la distribución gaussiana ni a la distribución lognormal. Dé un ejemplo numérico con una distribución muy desordenada.

37. ¿Cómo sugerir un intervalo de confianza no paramétrico?

38. ¿Cómo demuestras que las mejoras en el algoritmo que aportas son realmente efectivas en comparación con no realizar cambios? ¿Está familiarizado con las pruebas A/B?

39. ¿Por qué el error cuadrático medio no es un buen indicador para medir el modelo? ¿Qué métrica recomiendas usar en su lugar?

40. Para regresión logística, árboles de decisión y redes neuronales. ¿Cuáles son las principales mejoras en estas tecnologías en los últimos 15 años?

41. Además del análisis de componentes principales, ¿utiliza también otras técnicas de reducción de dimensionalidad de datos? ¿Cómo quieres volver poco a poco? ¿Cuáles son algunas técnicas de regresión por pasos con las que está familiarizado? ¿Cuándo son mejores los datos completos que los datos o muestras de dimensionalidad reducida?

42. ¿Cómo crear una clasificación de palabras clave?

43. ¿Está familiarizado con la teoría de valores extremos, la lógica de Montecarlo u otros métodos estadísticos matemáticos para evaluar correctamente la probabilidad de eventos dispersos?

44. ¿Qué es el análisis de atribución? ¿Cómo identificar coeficientes de atribución y correlación? Por ejemplo.

45. ¿Cómo definir y medir la capacidad predictiva de un indicador?

46. ¿Cómo encontrar el conjunto de reglas óptimo para las técnicas de puntuación de detección de fraude? ¿Cómo aborda la redundancia de reglas, el descubrimiento de reglas y su naturaleza? ¿Es factible una solución aproximada a un conjunto de reglas? ¿Cómo encontrar una aproximación factible? ¿Cómo decide que esta solución es lo suficientemente buena como para dejar de buscar otra solución mejor?

47. ¿Qué es una prueba de concepto?

48. ¿Qué es una botnet? ¿Cómo realizar el examen?

49. ¿Has utilizado alguna vez la interfaz API? ¿Qué tipo de API? ¿Es Google o Amazon o software como servicio?

50. ¿Cuándo es mejor codificar usted mismo en lugar de utilizar un paquete de software desarrollado por un científico de datos?

51.¿Qué herramientas se utilizan para la visualización? ¿Cómo evalúas a Tableau en “Piel Pintada”? r? ¿SAS? ¿Mostrar eficientemente cinco dimensiones en un diagrama?

52. ¿Es un falso positivo o un falso negativo?

53. ¿Con qué tipo de clientes coopera principalmente: interno, externo, departamento de ventas/departamento de finanzas/departamento de marketing/departamento de TI? ¿Tienes experiencia en consultoría? Trato con proveedores, incluida la selección y prueba de proveedores.

54. ¿Está familiarizado con el ciclo de vida del software? ¿Y el ciclo de vida de un proyecto de TI, desde los requisitos de ingresos hasta el mantenimiento del proyecto?

55. ¿Qué es la tarea cron?

56. ¿Eres un codificador soltero? ¿O un desarrollador? ¿O un diseñador?

57.¿Qué hace que un gráfico sea engañoso y difícil de leer o interpretar? ¿Una característica gráfica útil?

58. ¿Está familiarizado con la optimización de precios, la elasticidad de los precios, la gestión de inventarios y la inteligencia competitiva? Dé casos respectivamente.

59. ¿Cómo funciona el algoritmo de Zillow?

60. ¿Cómo comprobar si hay comentarios falsos o cuentas de Facebook falsas con malos propósitos?

61. ¿Cómo crear una nueva cuenta digital anónima?

62. ¿Has pensado alguna vez en montar tu propio negocio? ¿Qué tipo de idea es?

63. ¿Crees que desaparecerá el cuadro de inicio de sesión para ingresar el número de cuenta y la contraseña? ¿Qué será reemplazado?

64. ¿Has utilizado alguna vez un modelo de series temporales? ¿Correlación de retardo de tiempo? ¿Mapas relacionados? ¿Análisis espectral? ¿Tecnología de procesamiento y filtrado de señales? ¿En qué tipo de escenario?

65. ¿Qué ciencia de datos admiras más? ¿Por dónde empezar?

66. ¿Cómo te interesaste por la ciencia de datos?

67. ¿Cuáles crees que son los cinco mejores métodos de predicción para los próximos 20 años?

68.¿Qué es un motor de recomendaciones? ¿Cómo funciona?

69.¿Qué son las pruebas de precisión? ¿Cómo y cuándo pueden ayudarnos los simulacros sin utilizar pruebas exactas?

70. ¿Qué crees que te convierte en un buen científico de datos?

71. ¿Crees que los científicos de datos son artistas o científicos?

72. ¿Cómo se sabe inmediatamente que las estadísticas publicadas en un artículo (como un periódico) son incorrectas o se utilizan para respaldar el argumento del autor en lugar de simplemente enumerar información sobre algo? Por ejemplo, ¿cómo ve las estadísticas de desempleo que el gobierno publica periódicamente en los medios cada mes? ¿Cómo se pueden hacer estos datos más precisos?

73. Proporcione algunos "casos de mejores prácticas" en ciencia de datos.

74.¿Qué es la curva de eficiencia? ¿Cuáles fueron sus defectos y cómo los superaste?

75. ¿Cuál es la mayor cantidad de datos que has procesado alguna vez? ¿Cómo los trataste? Resultados del procesamiento.

76. ¿Cuál es la complejidad computacional de un buen algoritmo de agrupamiento rápido? ¿Qué es un buen algoritmo de agrupamiento? ¿Cómo determinar la cantidad de agregaciones en un clúster?

77. ¿Conoces las “reglas generales” utilizadas en estadística o ciencia computacional? O en análisis de negocios.

Las preguntas anteriores son muy fáciles de encontrar entre los solicitantes de empleo que entrevistan a analistas de datos, y algunas involucran cuestiones profesionales, por lo que debes estar completamente preparado antes de la entrevista.