¿Qué conocimientos necesitas para aprender sobre minería de datos?
1. Conocimiento estadístico
Al realizar análisis de datos, definitivamente se necesitan conocimientos estadísticos como Excel, SPSS, R, etc., que deben dominarse. Si hacemos minería de datos, debemos prestar atención al conocimiento matemático. La minería de datos requiere descubrir patrones a partir de datos masivos, lo que requiere ciertos conocimientos matemáticos, los más básicos como álgebra lineal, álgebra avanzada, optimización convexa, teoría de probabilidad, etc.
2. Conocimiento de probabilidad
Mientras que el algoritmo Naive Bayes requiere conocimiento de probabilidad, el algoritmo SKM requiere conocimiento de álgebra avanzada o teoría de intervalos. Por supuesto, podemos aplicar el modelo directamente. Herramientas como R y Python tienen paquetes de algoritmos listos para usar que se pueden aplicar directamente. Pero si queremos aprender estos algoritmos en profundidad, lo mejor es adquirir algunos conocimientos matemáticos, que también harán que nuestro viaje futuro sea más sencillo. Los lenguajes que usamos a menudo incluyen Python, Java, C o C++. Yo uso más Python o Java. A veces, MapReduce se usa para escribir programas y Hadoop o Hyp se usa para procesar datos. Si se usa Python, se combina con Spark.
3. Tipos de datos de minería de datos
Entonces, ¿cuáles son los tipos de datos que se pueden extraer? Base de datos relacional, almacén de datos, base de datos de transacciones, base de datos espacial, base de datos de series temporales, base de datos de texto. y bases de datos multimedia. Una base de datos relacional es una colección de tablas, cada tabla recibe un nombre único. Cada tabla contiene un conjunto de columnas o campos de atributos y normalmente contiene una gran cantidad de tuplas, como registros o filas. Cada tupla en una relación representa un objeto identificado por una clave única y descrito por un conjunto de valores de atributos.
4. Almacén de datos
¿Qué es un almacén de datos? Un almacén de datos se construye mediante la limpieza de datos, la transformación de datos, la integración de datos, la carga de datos y la actualización periódica de datos. ¿Cuál es el contenido del trabajo de la minería de datos? El análisis de datos se inclina más hacia el análisis estadístico, los dibujos, la elaboración de informes y algunas presentaciones. La minería de datos se trata más de construir modelos. Por ejemplo, hacemos un análisis de datos de comercio electrónico. Los datos de Wanda E-commerce son muy grandes y el equipo del proyecto debe decidir qué hacer específicamente. Partimos de este punto para pensar qué tipo de avance los datos del comercio electrónico pueden aportar a nuestro negocio. Seleccionamos algunos de ellos para agrupar usuarios.
En cuanto a qué conocimientos necesita aprender sobre minería de datos, el editor de Qingteng lo compartirá con usted aquí. Si tiene un gran interés en la ingeniería de big data, espero que este artículo pueda ayudarle. Si desea saber más sobre las habilidades y materiales de los analistas de datos y los ingenieros de big data, puede hacer clic en otros artículos de este sitio para obtener más información.