Red de conocimiento informático - Espacio del host - Cómo hice la transición de la física a la ciencia de datos

Cómo hice la transición de la física a la ciencia de datos

Cómo pasé de la física a la ciencia de datos

Mucha gente me pregunta si pasé de la física a la ciencia de datos. Este artículo cuenta por qué decidí convertirme en científico de datos. y cómo persigo y logro mis objetivos. Con suerte, en última instancia, alentará a más personas a perseguir sus sueños. ¡Empecemos!

Programa de verano del CERN

Programa de verano del CERN 2017

El programa de verano del CERN (Organización Europea para la Investigación Nuclear) ofrece a los estudiantes universitarios con especialización en física, informática e ingeniería una Una oportunidad única en la vida los trae a Ginebra, Suiza, para participar en proyectos de investigación con los mejores científicos.

En junio de 2017, tuve mucha suerte de ser seleccionado para participar en este proyecto. La física de partículas es mi dirección de investigación y estoy muy feliz de poder participar en el proyecto de investigación del CERN. Durante el proyecto de 2 meses, realicé análisis y simulaciones relevantes a través de la red informática de clase mundial LHC (Large Hadron Collider) y la computación en la nube para el experimento CMS (Compact Muon Coil).

CMS (Compact Muon Coil)

Además, el proyecto de verano también incluye una serie de conferencias y seminarios centrados en los campos de la física de partículas y la informática.

Durante este período, entré en contacto con el aprendizaje automático y el análisis de big data a través de la participación en conferencias, seminarios y proyectos. Para mi sorpresa, la tecnología de aprendizaje automático puede procesar grandes cantidades de datos y clasificar y detectar con precisión varias partículas microscópicas. Luego me dediqué a explorar y aprender sobre aprendizaje automático y computación en la nube sin dudarlo.

Quién iba a decir que esta experiencia se convertiría en un punto de inflexión en mi vida, y pensaba dedicarme al análisis de datos. Sin embargo, mi definición de ciencia de datos todavía es vaga en este momento.

Una primera mirada al campo de la ciencia de datos

Tan pronto como regresé a Singapur después de mi programa de verano, investigué un poco sobre la ciencia de datos. Para mi sorpresa, este campo era. definición no claramente definida. Pero en general, en mi opinión, la ciencia de datos abarca la programación, las matemáticas, los conocimientos estadísticos y ciertos conocimientos profesionales.

No obstante, me sorprende cómo se utilizan los datos para obtener conocimientos analíticos para las empresas e impulsar el valor empresarial. Desde comprender el problema empresarial hasta recopilar y visualizar datos, crear prototipos, ajustar e implementar modelos en aplicaciones reales, descubrí la satisfacción de resolver problemas complejos y completar desafíos utilizando datos.

"Sin datos, eres sólo una persona con ideas vacías."

—— W. Edwards Deming

Mi punto de partida: visualización de datos

Tableau Dashboard

En agosto de 2017, como entrada a los datos Mi primer paso en el campo científico fue cuando participé en la competencia de datos NIC Face-Off organizada conjuntamente por Tableau e IMDA (Infocomm Media Development Authority)***, donde estuve expuesto por primera vez a la visualización de datos.

Tuve la oportunidad de utilizar Tableau Public para visualizar varias fuentes de datos abiertos que investigaron los orígenes de la neblina en el sudeste asiático y proporcionaron información útil.

Primera pasantía de análisis de datos a tiempo parcial

En el mismo mes, me topé con la oportunidad de convertirme en pasante de análisis de datos en MobilityX, una startup financiada por SMRT. Para facilitar la lectura y obtener un amplio apoyo de la comunidad, uso Python para programar.

En realidad, cuando comencé a aprender programación en mi primer año, pensé en rendirme. Simplemente ejecutar un bucle for simple podría llevarme días o incluso semanas. Y muchas veces siento que no tengo talento.

No me interesé en la programación hasta que comencé un proyecto de investigación con mi profesor en mi tercer año. Comencé a construir con Python y me enamoré del lenguaje de programación.

Ya no dudé de mí mismo, pero tomé los siguientes pasos para aprender a programar:

1. Comprender la lógica básica de la programación.

2. del lenguaje de programación y aprender a usarlo (gramática, etc.);

3. Practica, practica, practica;

4.

La pasantía duró hasta marzo de 2018 y gané mucho durante este período. Aprendí a usar PostgreSQL y Python para la limpieza y manipulación de datos, el web scraping y la extracción de datos.

Prácticas de tiempo completo en ciencia de datos

Mi experiencia previa fortaleció aún más mi amor por la ciencia de datos. Luego planifiqué mi cronograma de estudios y, después de graduarme en diciembre de 2017, comencé una pasantía de tiempo completo en ciencia de datos en Quantum Inventions.

Después de leer esto, te preguntarás, ¿por qué elegí una pasantía en lugar de un trabajo de ciencia de datos? Es decir, poder adquirir más conocimientos técnicos trabajando con datos reales y experimentar todo el proceso de la ciencia de datos desde cero antes de postularse para un trabajo de tiempo completo.

Recursos de aprendizaje

A continuación se resume mi proceso de aprendizaje, durante el cual recibí ayuda de muchas personas y aproveché al máximo una gran cantidad de recursos en línea.

1. Libros recomendados

El primer libro sobre ciencia de datos que leí fue "¿Introducción al aprendizaje estadístico? —? Con aplicaciones en R). Este libro es una muy buena opción para principiantes, ya que se centra en los conceptos básicos del modelado estadístico y el aprendizaje automático, y proporciona explicaciones detalladas e intuitivas. Si eres bueno en matemáticas, te encantará este libro: Los elementos del aprendizaje estadístico.

También hay algunos libros relacionados que también son buenas opciones, como "Machine Learning for Absolute Beginners" de Sebastian Raschka, "Python and Machine Learning" (Python Machine Learning y "Python Data Science Handbook); " por Jake VanderPlas.

2. Cursos online

Coursera

Recomiendo el curso "Machine Learning" del cofundador de Coursera, Andrew Ng. Es capaz de dividir conceptos complejos en otros más simples. Este curso de 11 semanas se centra en el aprendizaje supervisado, el aprendizaje no supervisado y las aplicaciones prácticas del aprendizaje automático. Todavía me refiero a las notas del curso cuando construyo modelos de aprendizaje automático para abordar problemas de sobreadaptación o desajuste.

Udemy

El "Bootcamp de Python para ciencia de datos y aprendizaje automático" de José Portilla es una buena opción. Este curso comienza con los conceptos básicos de Python y lo guía paso a paso sobre cómo implementar varios códigos de aprendizaje automático y aprendizaje profundo utilizando scikit-learn y TensorFlow. Este curso proporciona una introducción detallada a varias bibliotecas en Python para implementar modelos de aprendizaje automático.

Además, recomiendo encarecidamente el curso "Deep Learning A-Z?: Hands-On Artificial Neural Networks" de Kirill Eremenko y Hadelin de Ponteves. A través de este curso, estuve expuesto al aprendizaje profundo por primera vez. El curso se centra en dominar el aprendizaje profundo supervisado y no supervisado a través de tutoriales prácticos de programación.

Lynda

Recomiendo el curso de Lillian Pierson "Python for Data Science Essential Training" (Python for Data Science Essential Training). Este curso se basa en el análisis estadístico y se centra en la gestión de datos. y visualización de datos.

3. LinkedIn

LinkedIn es una plataforma poderosa con fuertes conexiones con la comunidad de ciencia de datos.

La gente quiere compartir sus experiencias, ideas y conocimientos para ayudar a otros. Aprendí mucho en LinkedIn, ya sea conocimientos técnicos o asesoramiento profesional.

4. Otros recursos

Muchos principiantes en el campo de la ciencia de datos a menudo se sienten abrumados por la gran cantidad de recursos. Además de las plataformas de recursos anteriores, Towards Data Science, Quora, DZone, KDnuggets, Analytics Vidhya, DataTau, fast.ai, etc. son buenas opciones.

Crea un portafolio

Un portafolio puede mostrar tu experiencia y habilidades, especialmente si no tienes un doctorado en ciencia de datos.

Dado que solo tengo una licenciatura en física, no tengo ningún título relacionado con la informática, ni tuve ningún trabajo relevante en ciencia de datos en los primeros tres años de la universidad. Es importante crear un portafolio personal porque la empresa necesita saber qué ha aprendido y cómo puede aportar valor al negocio de la empresa. Por eso decidí hacer prácticas y tomar cursos en línea.

No hace mucho, mis amigos y yo participamos en el Kaggle Machine Learning Challenge organizado por Shopee y el Instituto de Ingeniería y Tecnología (IET). Esta fue mi primera competencia de Kaggle y aprendí a usar redes neuronales convolucionales (CNN) y a transferir aprendizaje para el reconocimiento de imágenes.

Conclusión

Compartí algunas de mis experiencias al ingresar a la industria de la ciencia de datos. Espero que mi experiencia pueda hacerte sentir que la ciencia de datos es realmente interesante y no tan aterradora. No fue hasta que entré en contacto con la ciencia de datos que me di cuenta cada vez más de lo que significa el aprendizaje sin fin. Espero que este artículo te inspire a desafiarte a ti mismo y alcanzar tus sueños.