¿Qué libros debería leer desde el nivel inicial hasta el avanzado en minería de datos?
Llevo varios años haciendo minería de datos. Por un lado, estoy escribiendo este artículo para poder escribir un artículo como referencia para la minería de datos. Por otro lado, también espero inspirar a otros y comunicarme con algunos expertos. hacer reír a todos.
Preguntas y respuestas. Respuesta:
P: Estoy estudiando. He estado leyendo sobre programación de inteligencia colectiva recientemente. ¿Puede el autor recomendar un libro sobre matemáticas básicas?
Respuesta: Yo tampoco soy bueno en matemáticas porque no leo mucho, no puedo darte sugerencias de esquemas, así que lo estoy compensando en secreto. Sólo puedo enumerar los libros que he leído recientemente y los libros que estoy leyendo actualmente y que creo que son buenos, para su referencia.
Matriz: Recetas Matrix de Kaare Brandt Petersen y cursos abiertos del MIT: Álgebra lineal en cursos abiertos de NetEase.
2. En Teoría de la probabilidad y estadística matemática, Johanna. Estadística matemática y análisis de datos de Rice, modelado estadístico y software R
3. Curso abierto de cálculo de NetEase "Curso abierto del MIT: Cálculo de una variable".
De hecho, siempre que tengas
1. Teoría de la probabilidad y estadística matemática y otros fundamentos estadísticos
2. Conocimientos sólidos de álgebra lineal.
3. Cálculo (sería mejor si pudieras aprender funciones de variables reales y análisis funcional)
Básicamente, tienes la mayoría de los conceptos básicos del aprendizaje automático.
Si cree que lo que dije es demasiado general, primero puede leer la base matemática en el apéndice de clasificación de patrones, para que pueda tener una impresión general.
Comenzar:
Libros que introducen la minería de datos, generalmente en chino:
Conceptos y técnicas de minería de datos
Ian H. Técnicas de aprendizaje automático para minería de datos por Witten/Eibe Frank.
Aprendizaje automático de Tom Mitchell
Programación de inteligencia colectiva de Toby Segran
Big Data de Anand Rajaraman
Introducción a la minería de datos Pang
Extracción y análisis de datos del sitio de redes sociales de Matthew A. Russell.
El primer libro de minería de datos para muchas personas es "Conceptos y tecnología de minería de datos" de Jia Weihan, que también es un libro introductorio recomendado por el jefe de nuestro grupo (personalmente creo que fue recomendado por él). porque Han es su maestro). De hecho, personalmente no recomiendo este libro. Este libro habla de todo, e incluso algunas ideas rara vez se tratan en muchos libros, como OLAP. Pero, de hecho, este libro no es tan amigable para los principiantes y les da a las personas la sensación de un libro de texto. Si tiene mucha perseverancia para terminar de leer este libro, sólo obtendrá algunos conceptos fragmentarios y será difícil comenzar con proyectos reales.
Personalmente recomiendo estos dos libros introductorios: "Programación de inteligencia colectiva" de Toby Segland y "Técnicas prácticas de aprendizaje automático para minería de datos" de Ian H. Witten/Abe Frank.
La "Programación de inteligencia colectiva" es muy adecuada para programadores que desean comprender la tecnología de minería de datos. Este libro habla sobre muchos algoritmos prácticos en la minería de datos. Lo más importante es que la forma en que se cuenta no es como la declaración de Han, sino que comienza con ejemplos reales, complementados con código Python, lo que le permite comprender rápidamente dónde puede este algoritmo. Se puede aplicar. En problemas reales, también puede escribir el código usted mismo. El único inconveniente es que no es lo suficientemente profundo, básicamente no hay derivación matemática, no es lo suficientemente completo y el contenido no es lo suficientemente informativo. Sin embargo, como libro introductorio, estas deficiencias son exactamente las ventajas que ayudan a comprenderlo y comenzar.
Otro libro recomendado, "Técnicas prácticas de aprendizaje automático para minería de datos", es un poco más difícil que el libro anterior, pero todavía está unos bloques por detrás del libro del profesor Han en términos de facilidad de comprensión. un famoso escritor Weka. El contexto ideológico de todo el libro también es lo más simple posible, comenzando con modelos simples y extendiéndose a problemas algorítmicos reales en la vida real. Lo más valioso es que al final del libro también hablamos un poco sobre cómo usar weka, para que después de aprender el algoritmo, puedas usar weka para hacer algunos pequeños experimentos y tener una comprensión intuitiva.
Después de leer los dos libros anteriores, siento que tengo una comprensión preliminar de la minería de datos general. Cómo continuar introduciéndolo en el futuro depende de las necesidades personales.
Si solo quieres saber un poco sobre tecnologías relacionadas, o como hobby, puedes echar un vistazo a "Big Data" de Anand Rajaraman y "Data on Social Networking Sites" de Matthew A. Russell Minería y Análisis". El primero se basa en material del curso "Web Mining" de Stanford. Selecciona muchos puntos pequeños en la minería de datos para su expansión, lo cual no es lo suficientemente sistemático, pero es muy bueno y adecuado para una comprensión preliminar antes de leer. Lo mismo ocurre con este último. Desafortunadamente, muchas de las API no se pueden probar directamente debido a GFS.
Si desea continuar con la investigación y el aprendizaje relacionados, creo que primero debe leer "Machine Learning" de Tom Mitchell. Este libro puede considerarse como un resumen del aprendizaje automático de hace más de diez años. El autor describe de manera simple y clara muchos algoritmos populares (hace diez años), explica en detalle los puntos y características aplicables de cada algoritmo y ofrece a todos un viaje de aprendizaje automático en un libro delgado.
Avanzado:
El tema de avanzado es difícil de discutir. Después de todo, cada uno tiene una comprensión diferente de lo avanzado. Mis sugerencias personales son las siguientes:
Aprendizaje en vídeo:
Puedes ver los vídeos de aprendizaje automático de Stanford. Recientemente escuché que todos los cursos abiertos de NetEase han sido traducidos y tienen subtítulos bilingües, lo que facilita su aprendizaje.
Aprendizaje de libros:
Mi recomendación personal es la siguiente: primero puede echar un vistazo al método de aprendizaje estadístico de Li Hang. Este libro se centra en la derivación matemática, lo que nos permite comprender algunos algoritmos de forma más rápida y profunda. Con la base del libro anterior, puedes comenzar a leer algunos clásicos.
Estas obras maestras se pueden leer sin ningún orden en particular o estudiar al mismo tiempo:
Recomiendo encarecidamente el libro "Pattern Classification" de Richard Duda, que contiene datos de muchas universidades. Libro de texto para cursos de introducción a la minería (también mi libro de introducción a la minería de datos, muy conmovedor). Si no lee este libro por completo, encontrará que cuando estudie muchos problemas, incluso algunos relativamente simples (como por qué el bayesiano degenera en un clasificador lineal bajo el supuesto gaussiano), tendrá que volver a leer este libro.
"Reconocimiento de patrones y aprendizaje automático" de Christopher M. Bishop también es un clásico y todo el libro es muy refrescante.
En "Elementos del aprendizaje estadístico", Douyou tiene un buen dicho: "Aprendizaje automático: desde el principiante hasta el dominio" se puede utilizar como subtítulo de este libro. Esto muestra la importancia de este libro para el aprendizaje automático avanzado. Cabe mencionar que aunque este libro está disponible en chino, también es conocido por su mala traducción. Escuché que es la traducción de deportes.
La "Guía para el análisis inteligente de datos" de Frank Hoppner es menos conocida que los clásicos básicos mencionados anteriormente, pero está bien escrita. El sitio web oficial tiene recomendaciones de knime. Anuncia la solución de problemas de minería de datos de la vida real, describe el proceso de estandarización de CRISP-DM y ofrece ejemplos de aplicaciones de R y knime al final de cada capítulo.
En lo que respecta a los proyectos:
De hecho, creo que deberíamos comenzar con algunos proyectos simples en la etapa avanzada. Siento que si lees libros y estudias algoritmos sin practicar, no podrás comprender verdaderamente la esencia de la minería de datos. Para dar un ejemplo simple, incluso si ha leído libros como "Elemental C" y "Effective C", si no escribe C, permanecerá en el nivel Hola Mundo. Practicar conocimientos reales es muy adecuado para el tema de minería de datos. Sólo después de comenzar el proyecto descubrirás lo que significa "80% de preparación, 20% de modelado". Siento que los problemas del mundo real no se pueden resolver fácilmente sólo con modelos. Lea detalladamente la "Guía para el análisis inteligente de datos" para tener una idea. Si empiezas a hacer recomendaciones o algunos proyectos simples, también puedes considerar usar mahout. El manual introductorio recomendado es "mahout en acción". Este proyecto es una larga historia. Si tengo tiempo, escribiré un ensayo aparte basado en el proceso crujiente, así que no entraré en ello aquí.
Software:
El software que uso y recomiendo con frecuencia es el siguiente. Aquí hay una breve lista, la analizaré en detalle más adelante y escribiré una introducción:
El software Weka Java se puede integrar en su propio proyecto.
Orange es un software de código abierto de minería de datos escrito en Python. La interfaz es muy hermosa, puedes realizar experimentos gráficos y también puedes usar Python para llamar a la programación.
Knime es similar a Orange y puede integrar software de código abierto como weka y r.
El módulo EM de SAS es más grande que R y el más clásico de Matlab.
A continuación te dejamos un artículo con una breve introducción. Si tienes alguna duda, puedes comentarla en el post o comunicarte por correo electrónico.