Red de conocimiento informático - Conocimiento informático - Cómo aprender a extraer datos de forma sistemática

Cómo aprender a extraer datos de forma sistemática

El afilado del cuchillo no le faltará al leñador. Antes de aprender a extraer datos, debes comprender algunos puntos: la minería de datos aún no es popular en China, al igual que la habilidad de matar un dragón. La preparación inicial de datos suele representar alrededor del 70% de la carga de trabajo de todo el proyecto de minería de datos. La minería de datos en sí integra estadísticas, bases de datos, aprendizaje automático y otras disciplinas, y no es una tecnología nueva. La tecnología de minería de datos es más adecuada para que el personal empresarial aprenda (es más eficiente que el personal técnico aprenda negocios) La minería de datos es adecuada para áreas que el BI tradicional (informes, OLAP, etc.) no puede soportar. Los proyectos de minería de datos suelen requerir un trabajo repetitivo que no tiene contenido técnico. Si considera que el contenido anterior es aceptable para usted, continúe leyendo. Para aprender una tecnología, es necesario estar cerca de la industria. La tecnología sin experiencia en la industria es como un castillo en el aire. El desarrollo de la tecnología, especialmente en el campo de la informática, es extenso y cambia rápidamente (hace diez años, incluso se podía crear una empresa de diseño web), y la mayoría de las personas no tienen la energía ni el tiempo para comprender completamente todos los detalles técnicos. . Sin embargo, la tecnología puede asumir su propio papel después de combinarse con la industria. Por un lado, ayuda a comprender los puntos débiles y las necesidades rígidas de los usuarios. Por otro lado, puede acumular experiencia en la industria y utilizar el pensamiento de Internet para cruzar. fronteras, lo que le facilitará el éxito. No intente cubrir todo cuando aprenda tecnología, de lo contrario perderá su competitividad central. 1. Los campos de trabajo actuales del personal de minería de datos nacional se pueden dividir aproximadamente en tres categorías. 1) Analista de datos: brinde consultoría comercial, inteligencia comercial y produzca informes de análisis en comercio electrónico, finanzas, telecomunicaciones, consultoría y otras industrias que tengan datos industriales. 2) Ingenieros de minería de datos: implementen y analicen algoritmos de aprendizaje automático en industrias relacionadas con big data, como multimedia, comercio electrónico, búsqueda y redes sociales. 3) Dirección de la investigación científica: Investigación sobre mejoras de eficiencia y aplicaciones futuras de nuevos algoritmos en instituciones de investigación científica de alto nivel, como universidades, unidades de investigación científica e institutos de investigación corporativos. 2. Hablar sobre las habilidades que se deben dominar en cada campo laboral. (1). Los analistas de datos deben tener una base sólida en estadística matemática, pero no se requieren capacidades de desarrollo de programas. Debe dominar el uso de herramientas convencionales de minería de datos (o análisis estadístico), como Business Analytics y Business Intelligence Software (SAS), SPSS, EXCEL, etc. Requiere una comprensión profunda de todos los datos básicos relacionados con la industria y un cierto grado de sensibilidad de los datos. Libros clásicos recomendados: "Teoría de la probabilidad y estadística matemática", "Estadística", edición recomendada por David Freedman, "Modelado de negocios y minería de datos", "Introducción a la minería de datos", "Casos comerciales de programación y minería de datos SAS", "Minería de datos Clementine" Métodos y aplicaciones", "Colección de referencias de Excel 2007 VBA", "Compañero de procedimientos estadísticos de IBM SPSS Statistics 19", etc. (2). Los ingenieros de minería de datos deben comprender los principios y aplicaciones de los algoritmos de aprendizaje automático convencionales. Necesita estar familiarizado con al menos un lenguaje de programación como (Python, C, C++, Java, Delphi, etc.). Debe comprender los principios de la base de datos, poder operar al menos una base de datos con competencia (Mysql, SQL, DB2, Oracle, etc.), comprender el principio de funcionamiento de MapReduce y ser competente en el uso de las herramientas de la serie Hadoop. Libros clásicos recomendados: "Conceptos y tecnología de minería de datos", "Aprendizaje automático en la práctica", "Inteligencia artificial y sus aplicaciones", "Introducción a los sistemas de bases de datos", "Introducción a los algoritmos", "Minería de datos web", "Biblioteca estándar de Python ", " "pensar en Java", "Pensar en C++", "Estructura de datos", etc. (3) La dirección de la investigación científica requiere un estudio en profundidad de las bases teóricas de la minería de datos, incluida la minería de reglas de asociación (Apriori y FPTree), algoritmos de clasificación (C4.5, KNN, regresión logística, SVM, etc.). y algoritmos de agrupamiento (Kmeans, Spectral Clustering). El objetivo es comprender primero el uso, las ventajas y las desventajas de cada uno de los 10 principales algoritmos de minería de datos.

En comparación con SAS y SPSS, el lenguaje R es más adecuado para los investigadores científicos del Proyecto R para Computación Estadística, porque el software R es completamente gratuito y el entorno comunitario abierto brinda soporte para una variedad de conjuntos de herramientas adicionales, lo que lo hace más adecuado para el análisis de computación estadística. investigación. Aunque actualmente no es muy popular en China, es muy recomendable. Puede intentar mejorar algunos algoritmos convencionales para hacerlos más rápidos y eficientes, como implementar la plataforma de llamada de algoritmos en la nube SVM en la plataforma Hadoop: el proyecto web llama al clúster hadoop. Se requiere una lectura extensa y profunda de artículos de conferencias de fama mundial para rastrear las tecnologías de moda. Como KDD, ICML, IJCAI, Association for the Advancement of Artificial Intelligence, ICDM, etc., también hay revistas en campos relacionados con la minería de datos: ACM Transactions on Knowledge Discovery from Data, IEEE Transactions on Knowledge and Data Engineering, Journal of Machine; Página de inicio de Learning Research, IEEE Xplore: análisis de patrones e inteligencia artificial, transacciones IEEE en, etc. Puede intentar participar en concursos de minería de datos para desarrollar su capacidad para resolver problemas prácticos en todos los aspectos. Como Sig KDD, Kaggle: pasar del Big Data al Big Analytics, etc. Puede intentar contribuir con su propio código a algunos proyectos de código abierto, como Apache Mahout: aprendizaje automático escalable y minería de datos, myrrix, etc. (Puede encontrar proyectos más interesantes en SourceForge o GitHub). Libros clásicos recomendados: "Aprendizaje automático", "Clasificación de patrones", "La esencia de la teoría del aprendizaje estadístico", "Métodos de aprendizaje estadístico", "Tecnología práctica de aprendizaje automático para la minería de datos", "Práctica del lenguaje R", la calidad del inglés es imprescindible. para talentos de investigación científica "Aprendizaje automático: una perspectiva probabilística" "Ampliación del aprendizaje automático: enfoques paralelos y distribuidos" "Minería de datos utilizando SAS Enterprise Miner: un enfoque de estudio de caso" "Python para análisis de datos", etc. 3. La siguiente es la experiencia laboral de los ingenieros de minería de datos en la industria de las comunicaciones. Desde la perspectiva de la práctica de proyectos de minería de datos, las habilidades de comunicación son las más importantes para los intereses y pasatiempos de la minería. Solo con pasatiempos se puede estar dispuesto a profundizar en ellos. Solo con buenas habilidades de comunicación se pueden comprender correctamente los problemas comerciales y transformarlos correctamente. Sólo profundizando en el problema podrá expresar claramente sus intenciones e ideas entre los profesionales relevantes y obtener su comprensión y apoyo. Por lo tanto, creo que las habilidades de comunicación y los pasatiempos son la competitividad central de la minería de datos personales y son difíciles de aprender, mientras que cualquiera puede aprender otros conocimientos profesionales relacionados y no se consideran la competitividad central del desarrollo personal. Cuando se trata de esto, es posible que muchos expertos en almacenamiento de datos, programadores, estadísticos, etc. quieran tirar ladrillos. Lo siento, no tengo otro significado. Todas sus especialidades son importantes para la minería de datos. Como individuos, para un individuo, con energía y tiempo limitados, es imposible dominar todos estos campos. En este caso, el núcleo más importante a elegir son las habilidades de minería de datos y las capacidades comerciales relacionadas (de otro podemos ver ejemplos extremos). , como un proyecto de miniminería. Una persona que comprenda las habilidades de marketing y minería de datos debería poder hacerlo.

Aunque no comprende los almacenes de datos, un simple Excel es suficiente para manejar el procesamiento de datos de 60.000 muestras; aunque no comprende las habilidades de presentación profesional, siempre que pueda entenderlo por sí mismo, no necesita Showcase, como se mencionó anteriormente; debe dominarlo, lo cual es muy importante para el mini proyecto de una persona; aunque no comprende la programación, las herramientas de minería profesionales y las habilidades mineras son suficientes para que pueda practicar, en un mini proyecto, una persona que conoce las habilidades mineras y; Las capacidades comerciales de marketing pueden completarlo con éxito. Incluso pueden extraer infinitamente diferentes ideas de proyectos de acuerdo con las necesidades comerciales en una fuente de datos. Permítanme preguntarles sobre este mini proyecto. Un simple experto en almacenamiento de datos, un simple programador, un simple técnico de visualización. o incluso un simple experto en tecnología minera son todos incompetentes). Esto también explica desde otro aspecto por qué las habilidades de comunicación son importantes. Estos campos profesionales completamente diferentes quieren integrarse de manera efectiva y orgánica para la práctica de proyectos de minería de datos. ¿Cree que es posible sin buenas habilidades de comunicación? Las capacidades de minería de datos sólo pueden mejorarse y sublimarse en el horno de la práctica de proyectos, por lo que seguir proyectos para aprender a minar es el atajo más eficaz. Las personas que aprenden minería en el extranjero comienzan a trabajar en proyectos con sus jefes. No importa si no lo entiendes al principio. Cuanto menos entiendas, mejor sabrás qué aprender y más rápido y eficaz podrás hacerlo. aprender. No sé cómo aprenden los estudiantes de minería de datos nacionales, pero a juzgar por algunos foros en línea, muchos de ellos simplemente hablan en papel, lo cual es una pérdida de tiempo y muy ineficiente. Además, el concepto de minería de datos en China es muy confuso ahora. Muchos BI se limitan a la visualización de informes y al análisis estadístico simple, pero también se les llama minería de datos. Por otro lado, solo hay unas pocas industrias nacionales que realmente lo hacen. Para implementar la minería de datos a gran escala (bancos, compañías de seguros, comunicaciones móviles), las aplicaciones en otras industrias solo pueden considerarse de pequeña escala. Por ejemplo, muchas universidades tienen algunos temas y proyectos de minería relacionados, pero están relativamente dispersos. y están en la etapa exploratoria, pero creo que la minería de datos debe tener un buen futuro en China, porque es la tendencia inevitable del desarrollo histórico. Hablando de casos prácticos en dispositivos móviles, si eres de dispositivos móviles, debes saber que existe una empresa nacional llamada Huayuan Analysis (descargo de responsabilidad, no tengo nada que ver con esta empresa, solo la analicé desde la perspectiva de un minero de datos) La mayoría de las llamadas empresas de servicios de minería de datos en China piensan que Huayuan no es malo y es más práctico que muchas grandes empresas con nombres falsos. Su negocio ahora ha cubierto el análisis y los proyectos de minería de la mayoría de las empresas móviles provinciales en China. busque en línea. Debería poder encontrar información detallada en un momento. Lo que más me impresionó del análisis de Huayuan es que esta empresa comenzó desde cero en 2002. No importaba si no lo entendía. Comencé a ampliar clientes mientras estudiaba por mi cuenta. Ahora ha florecido por completo en las comunicaciones móviles de China. mercado. Realmente lo admiro. Inicialmente utilizaron EXCEL para procesar datos y compararon diferentes modelos a simple vista. Puedes imaginar la dificultad de esto. En cuanto a las aplicaciones específicas de minería de datos en las comunicaciones móviles, hay demasiadas, como la formulación de diferentes paquetes telefónicos, modelos de abandono de clientes, diferentes modelos de venta cruzada de servicios, análisis de flexibilidad de descuentos de diferentes clientes, modelos de segmentación de grupos de clientes y Diferentes períodos de vida de los clientes. Hay demasiados modelos de ciclo, modelos de selección de canales y modelos de advertencia de fraude malicioso. Recuerde, a partir de las necesidades del cliente y los problemas prácticos, se pueden encontrar demasiados proyectos de minería en dispositivos móviles. Finalmente, déjame contarte un secreto. Cuando tus capacidades de minería de datos mejoren hasta cierto nivel, descubrirás que no importa en qué industria, la mayoría de las aplicaciones de minería de datos se superponen y son similares, lo que te hace sentir más relajado. 4. Mapa de habilidades necesarias para convertirse en científico de datos. (Texto original: Ciencia de datos: ¿Cómo puedo convertirme en científico de datos?)