Cómo aprender a utilizar el lenguaje R para la minería de datos
Después de aprender R durante varios meses, finalmente lo dominé.
Escribe algunos de mis propios pensamientos y experiencias para poder seguir jugando. Sería mejor si alguien pudiera ver lo que escribí y obtener ayuda.
¿Qué es r? ¿Cuáles son las ventajas de R?
r es un software de análisis de datos. En pocas palabras, R puede considerarse como un "reemplazo" de MATLAB, con la ventaja de ser gratuito y de código abierto. r puede resolver problemas relacionados con cálculos numéricos como MATLAB y tiene potentes funciones de dibujo y procesamiento de datos.
R tiene una gran cantidad de conjuntos de herramientas de análisis estadístico. Mi sensación es que solo hay herramientas de las que no hemos oído hablar, y no hay absolutamente ningún conjunto de herramientas que R no tenga. Con una amplia variedad de kits de herramientas, puede solucionar cualquier problema que tenga con los datos y las estadísticas. Debido a la gran cantidad de paquetes de datos, puede resultar complicado encontrar el paquete de datos que necesita.
Aprender R será muy conveniente si tienes las siguientes habilidades:
1. Ya conozco algunos lenguajes de programación de alto nivel (muy importante)
3. Bases teóricas de probabilidad y estadística.
4. No me duele la cabeza cuando miro los datos.
5. No me duele la cabeza cuando miro cmd o terminal
Necesitas un libro de texto en lenguaje R que se adapte a tus necesidades.
Encontré esta publicación cuando comencé a aprender R.
Un resumen de libros de texto en lenguaje R muy potentes. Muchas gracias al autor del post original. Puedes consultar esta publicación para elegir los materiales didácticos que más te convengan.
Aquí hablaré de mi experiencia con varios libros de texto que utilizo principalmente:
1. Modelado estadístico y software R (escrito por Yi Xue): una excelente introducción al lenguaje R. El libro de texto cubre todas las aplicaciones básicas de R&, los métodos y los códigos de muestra también son excelentes. Como libro de texto sobre lenguaje de programación chino, es definitivamente uno de los mejores. Pero para entender este libro, todavía es necesario "conocer algunos lenguajes de programación de alto nivel". PD: Mi querida biblioteca de la Universidad de Jilin tiene dos libros de texto en circulación y tengo uno durante todo el año.
2. R en pocas palabras: a juzgar por el contenido de la explicación, no es muy diferente del libro anterior. Es una introducción relativamente básica a la aplicación del lenguaje R, pero hay algunos programas de R. lenguaje Las características son más profundas que las enseñadas por el maestro Yi Xue. La mayor ventaja de este libro es que es un libro de referencia, lo que le facilita buscar algunas cosas "ambiguas" al empezar. PD: Imprimí este libro y simplemente lo leí de principio a fin. Su mayor utilidad es buscarlo como un diccionario.
3. ggplot2 Elegant Data Graphics: este es un libro que presenta cómo usar el paquete ggplot 2 para dibujar. Paquete Ggplot2, una herramienta de dibujo muy poderosa que puede manipular casi cualquier elemento del dibujo y proporciona una forma de agregar capas para que podamos dibujar paso a paso. Hablando del paquete ggplot2, se debe mencionar una palabra: "potencial ilimitado", y se debe presentar cada una de ellas.
Todos en ggplot2 usarán este adjetivo. El papel más importante de este libro es también el de libro de referencia relacionado con el dibujo. Las explicaciones son detalladas y meticulosas. Cada pequeño cambio de parámetro se ilustrará con imágenes y textos para ayudarle a comprender. PD: También imprimí este libro, que es muy adecuado para consultas.
Varios sitios web que pueden mejorar gradualmente las capacidades de R
1. R-bloggers: hay discusiones sobre R y datos, temas de vanguardia, temas básicos, todo. Se puede decir que estos tipos hacen que R sea cada vez más poderoso. Envío RSS a este sitio web, miro métodos y temas que me interesan todos los días y poco a poco acumulo algunos conocimientos, lo cual es un proceso interesante.
2. Ciudad de estadísticas: este es un foro donde se comunican una gran cantidad de usuarios de R. Puedes subir y hacer preguntas y siempre habrá gente amable que podrá ayudarte.
Invitado 3.r: es un blog sobre r. No se actualiza muy rápidamente y presta atención a algunos desarrollos nacionales de r.
Entorno de uso de R
Si te asusta ver terminal o cmd, debes usar Rstudio. La ventaja de Rstudio es que integra Rconsole, editor de scripts, consulta de datos visuales, comandos históricos, consulta de ayuda y otras funciones, además de la perfecta interacción entre script y consola. Después de todo, es una interfaz visual y utiliza muchos botones. El editor de scripts de R es una molestia, por lo que destaca más que el Bloc de notas.
No es adecuado para escribir guiones, pero sí para depurar guiones.
Por último, quiero decir que cuando empiezas a aprender R o cualquier otro lenguaje, hay un problema común, es decir, no conoces algunos pequeños detalles o no puedes recordarlos. claramente. A menudo, un error que perjudica al usuario puede consumir mucho tiempo. Este es un proceso que hace que la gente quiera destrozar la computadora. En el futuro registraré algunos pequeños detalles que dañaron al huevo en el blog. Este artículo se divide en seis partes, que presentan introducción, introducción, dibujo y visualización, econometría, análisis de series de tiempo, finanzas, etc.
1. Introducción preliminar
Comenzando con R, este es el folleto introductorio oficial. Tiene una versión china, traducida por Ding, y también traducida como "R... R4 para principiantes. Este folleto tiene una versión china, que debería llamarse R Getting Started... Además, también puedes leer el de Liu Sizhe en 153 minutos. "Aprendizaje R". Este libro recopila las 153 preguntas más frecuentes de los principiantes en R. ¿Por qué se llama 153 minutos? Debido a que el autor escribió 153 preguntas al principio y le toma 1 minuto leer una pregunta, la situación general es de 153 minutos. Con estos conceptos básicos, también tengo que leer algunos libros clásicos, como modelos estadísticos y software R. También hay R Cookbooks y R in Action en el extranjero. No los he leído y no puedo comentar.
Finalmente, recomiendo R en una palabra. ¡Sí, "r en el caparazón"! Por supuesto, estoy bromeando. Simplemente es una jerga que significa "simplemente". ¡La versión china de este libro se está traduciendo actualmente y se enviará en marzo del próximo año! Este libro es muy bueno. ¡Puedes esperarlo con ansias a partir de ahora y hacérnoslo saber!
2. Introducción avanzada
Después de leer los libros anteriores, puede ingresar al nivel de entrada avanzado. Hay dos libros clásicos para leer en este momento. Estadística con libros R y R. La razón por la que estos dos libros son avanzados es que ya no se limitan a los conceptos básicos de R, sino que están escritos en combinación con varios métodos de análisis de datos de uso común. Introdujeron sistemáticamente la regresión lineal R, el análisis de varianza, las estadísticas multivariadas, el dibujo R, el análisis de series temporales, la extracción de datos, etc. Después de leerlos, descubrirá que, vaya, R puede hacer tantas cosas y es muy fácil de hacer. Eso es todo por ahora, el resto probablemente sea lo que quieras estudiar específicamente. Hablemos de ello en términos generales.
3. Dibujo y visualización
Aristóteles decía: “El hombre prefiere la vista a otros sentidos”. Entonces, el dibujo y la visualización atraen la atención y la atención de mucha gente. Entonces, ¿cómo aprender a trazar R y visualizar datos? Sencillo, ¿cómo dibujar un histograma? ¿Cómo agregar una curva de densidad al histograma? Creo que después de leer los siguientes libros, tendrás una comprensión general.
En primer lugar, puedes leer "R Graphics" como una introducción al dibujo. Personalmente, creo que este libro es bastante clásico y proporciona una introducción completa al sistema de dibujo en R. Si hay un sitio web correspondiente al libro, Google lo hará. Para una lectura más profunda, puede leer Lattice: visualización de datos multivariados con r. Los anteriores son relativamente comunes. Por supuesto, también existe el sistema ggplot 2, más artístico y elegante. Para el análisis de datos, consulte ggplot 2: Gráficos elegantes. También hay un libro sobre minería de datos: Minería de datos con Rattle y R, principalmente utilizando el software Rattle. ¡Personalmente prefiero los sonajeros! Por supuesto, Rattle no es el mejor, ¡Rweka también es genial! Luego está el libro de gráficos interactivos. El famoso sistema interactivo es ggobi, que me gusta desde hace más de dos años. El libro sobre ggobi es un gráfico dinámico interactivo que utiliza R y ggobi para el análisis de datos, pero solo es adecuado para la entrada. Para obtener más información, puede ir a la página de inicio de GGOBI, que contiene información diversa e información de actualización de paquetes.
Especialmente la versión china del libro ilustrado es un gráfico estadístico moderno.
4. Econometría
En cuanto a la econometría, primero recomiendo un folleto muy delgado: "Econometría en R" como introducción. Luego está "Econometría aplicada con R". El paquete R correspondiente de este libro es AER, que se puede instalar y utilizar en conjunto, y el efecto es muy bueno. Una gran parte de la econometría se trata del análisis de series de tiempo, que se analiza a continuación.
5. Análisis de series de tiempo
Los libros de series de tiempo se dividen en dos categorías. Una categoría son libros más generales, el representante típico es: Análisis de series de tiempo y su aplicación: Adjunto R An. ejemplo. Este libro presenta varios métodos clásicos de análisis de series de tiempo, así como códigos R que implementan varios métodos clásicos. Este libro está disponible en chino. Si no desea comprarlo, se recomienda descargarlo directamente desde la página de inicio del autor. La versión en inglés es realmente muy fácil de leer.
Una gran parte del análisis de series de tiempo tiene que ver con el análisis de series de tiempo financieras. Hay dos libros populares en esta área, Análisis de series de tiempo financieras. Este libro se escribió originalmente en código S-plus, pero la nueva versión utiliza principalmente código R. Este libro es adecuado para personas con conocimientos básicos de análisis de series de tiempo y finanzas, porque la teoría del análisis de series de tiempo y diversos conocimientos financieros del libro no son particularmente claros, y la parte del cálculo del VaR utilizando la teoría del valor extremo es relativamente difícil de entender. Otro libro interesante es TimeSeriesFAQ publicado por Rmetrics. Este libro es una introducción a las series de tiempo financieras. Es muy básico pero difícil de entender. La versión china correspondiente es "Preguntas frecuentes sobre el análisis de series temporales financieras". Por supuesto, aún no se ha publicado. Existe un caso especial de series temporales en el campo económico llamado cointegración, y mucha gente está prestando mucha atención a esta teoría. Las personas interesadas en esto pueden ver R. Finalmente, el libro más avanzado trata sobre el análisis de wavelets. Consulte el método wavelet en estadística. Además, los libros sobre agrupación de series temporales son relativamente raros en la actualidad. ¡Es una tierra virgen que las personas con ideales elevados pueden cultivar!
6. Finanzas
El ámbito financiero es muy amplio. Si se trata de una gran empresa financiera, aquí también deberían incluirse los seguros. Usar R para finanzas requiere dominar más conocimientos financieros, pero la tecnología de análisis de datos por sí sola tiene poca importancia. Siento que estos libros son más útiles para las personas que entienden las finanzas y las diferentes técnicas de análisis de datos. Las personas que solo conocen la tecnología de análisis de datos sin estar expuestas a conocimientos financieros deben mirar las cosas de manera confusa. Algunas personas incluso piensan que el análisis financiero es de nivel relativamente bajo. Los libros clásicos en esta área incluyen: "Temas avanzados en el análisis de datos económicos y financieros con R" y "Modelado de series de tiempo financieras con S-Plus". Las ecuaciones diferenciales estocásticas se utilizan a menudo en la fijación de precios de productos financieros. Hay un libro llamado "Simulación de la influencia de ecuaciones diferenciales estocásticas: con r ejemplos" sobre esto, con ejemplos, ¡y el contenido es bastante detallado! Además, es un curso de medición y gestión de riesgos. El clásico son Técnicas de simulación en la gestión de riesgos financieros, Teoría práctica moderna de riesgos y Gestión cuantitativa de riesgos utilizando R: Conceptos, técnicas y herramientas. El análisis de cartera y el precio de opciones se pueden encontrar en Optimización de cartera con R y Precio de opciones y Estimación de modelo financiero con R respectivamente.
7. Tecnología de Minería de Datos
No hay muchos libros en esta área, solo Minería de Datos con R: Aprendiendo con Casos. Sin embargo, hay suficientes paquetes de minería de datos en R y basta con consultar la documentación de ayuda del paquete.