Red de conocimiento informático - Material del sitio web - Cómo aprender a analizar datos en línea

Cómo aprender a analizar datos en línea

La ciencia de datos no tiene un sistema temático independiente. La estadística, el aprendizaje automático, la minería de datos, las bases de datos, la computación distribuida, la computación en la nube, la visualización de información, etc. son todas tecnologías o métodos para procesar datos. Pero en un sentido estricto, Sun Dasheng Wikipedia cree que la ciencia de datos debe resolver tres problemas:

1. Preprocesamiento de datos

2. Modelado y análisis de datos.

Estos son también los tres pasos principales en nuestro trabajo con datos:

1. Los datos sin procesar deben pasar por una serie de procesos de preprocesamiento, como recolección, extracción, limpieza y clasificación. para formar datos de alta calidad;

2. Queremos ver cómo "se ven" los datos y qué características y patrones tienen;

3.

Es posible que estos tres pasos no sean iguales. No es riguroso y cada paso puede tener los siguientes pequeños pasos según el problema, pero según mi experiencia de los últimos años, sigo esta idea general.

De esta manera, la ciencia de datos es en realidad una tecnología compuesta. Dado que es una tecnología, comencemos con el lenguaje de programación. Por simplicidad, solo hablaremos de R y Python. Sin embargo, dado que este es un libro recomendado sobre ciencia de datos, no mencionaré libros sobre los conceptos básicos de la programación R/Python, sino que hablaré directamente sobre libros relacionados con la ciencia de datos.

Programación en lenguaje R

Si solo desea obtener una comprensión preliminar del lenguaje R y su aplicación en el análisis de datos, puede leer estos dos libros:

R en acción: Mi big data 101 en R. De hecho, para las personas sin ninguna base de programación, la curva de aprendizaje de este libro puede ser empinada al principio. Sin embargo, si utiliza algunos materiales auxiliares, como el conocimiento básico de R publicado oficialmente, hay un conjunto de preguntas de etiqueta R (preguntas 'r' más recientes) en stackoverflow. Si encuentra problemas complejos, puede buscar en él. encontrar siempre una solución. De esa forma, empezar a estudiar utilizando este libro no será gran cosa. Además, el autor de este libro también es relativamente fácil de escribir y se acerca a la realidad.

Uso del lenguaje R para análisis de datos y gráficos: un libro introductorio al uso del lenguaje R para análisis de datos. Este libro también se caracteriza por estar cerca de la práctica real y no explica demasiado sobre la teoría estadística. Por lo tanto, a las personas a las que les gusta aprender a través de aplicaciones situacionales les gustará este libro introductorio. Además, este libro es relativamente legible, lo que significa que incluso si no tienes una computadora para escribir código, aún puedes leerlo sacando este libro y leyéndolo.

Pero si primero usa R para realizar trabajos de datos reales, entonces los dos libros anteriores no son suficientes, también necesita estos:

Estadística aplicada moderna con S: este libro es en estadística Habla más sobre teoría y la ventaja es que puedes usar un libro para revisar estadísticas y aprender el lenguaje R. (La relación entre S/Splus y R es similar a la relación entre Unix y Linux, por lo que usar los tutoriales de S para aprender R no es ningún problema).

Procesamiento de datos con R: este libro es muy Práctico, le enseña cómo leer, limpiar, convertir archivos de datos sin procesar en diferentes formatos e integrarlos en datos de alta calidad. Por supuesto, como cualquier libro que se centra en el mundo real, este libro también proporciona una gran cantidad de datos reales o simulados para que practiques. El contenido de este libro es muy importante para las personas que realmente trabajan con datos, porque para cualquier investigación, las habilidades de preprocesamiento de datos pueden ahorrarle mucho tiempo y energía. De lo contrario, su investigación tendrá que esperar para siempre a recibir sus datos.

Libro de recetas de gráficos de R: si desea utilizar R para visualización, utilice este libro. Más de 150 recetas para ayudarle a procesar la mayoría de los tipos de datos. Con mis habilidades de visualización extremadamente amateur, R es la herramienta más sencilla para crear los gráficos más bellos.

Presentación del aprendizaje estadístico y aplicaciones utilizando el lenguaje R: este libro es un volumen complementario del famoso "Elementos del aprendizaje estadístico", que se centra más en modelos y algoritmos de aprendizaje estadístico (máquina).

"Manual de análisis estadístico con lenguaje R": el contenido de este libro también es muy sólido. Muchos estudiantes de estadística utilizan este libro para aprender modelado estadístico con lenguaje R.

"Manual de análisis estadístico con lenguaje R": el contenido de este libro también es muy sólido. Muchos estudiantes de estadística utilizan este libro para aprender modelado estadístico con lenguaje R.