Red de conocimiento informático - Conocimiento informático - Cómo procesar y modelar datos con IBM SPSS Modeler

Cómo procesar y modelar datos con IBM SPSS Modeler

Dado que el volumen de negocios y el volumen de datos de los clientes empresariales actuales aumentan constantemente, con el desarrollo de las empresas, muchas empresas no se limitan a almacenar los mismos datos en bases de datos si desean procesar y procesar los datos almacenados en diferentes bases de datos, para modelar. , es necesario integrar efectivamente los datos almacenados en diferentes bases de datos. Este artículo presentará cómo integrar datos entre diferentes bases de datos a través de IBM SPSS Modeler y luego realizar el procesamiento de modelado.

Introducción a IBM SPSS Modeler

IBM SPSS Modeler es una parte importante de las soluciones de IBM en el campo del análisis y la previsión. Es un conjunto de herramientas de minería de datos a través de las cuales se puede aprovechar. tecnología empresarial Cree rápidamente modelos predictivos y aplíquelos a las actividades comerciales para mejorar la toma de decisiones. Interfaz de Modeler

Figura 1. Interfaz de IBM SPSS Modeler

IBM SPSS Modeler procesa datos a través de nodos y luego conecta estos nodos para formar una serie de procesos de procesamiento de datos, a los que llamamos para obtener datos. fluir. También se puede decir que IBM SPSS Modeler es un producto impulsado por el flujo de datos. Esta serie de nodos representa las operaciones que se realizarán con los datos y los enlaces entre nodos representan la dirección del flujo de datos. IBM SPSS Modeler divide los nodos en los siguientes tipos:

Fuente: este tipo de nodo importa datos a IBM SPSS Modeler, como bases de datos, fuentes de datos de IBM SPSS Analytic Server, archivos de texto, archivos de datos de SPSS Statistics, Excel. , XML, etc.

Opciones de registro: Estos nodos pueden realizar operaciones como seleccionar, ordenar, muestrear, fusionar y agregar registros de datos.

Opciones de campo: Estos nodos realizan operaciones en campos de datos, como filtrar, exportar nuevos campos y determinar el nivel de medición de un campo determinado.

Gráficos: Estos nodos muestran gráficamente los datos antes y después del modelado. Los gráficos incluyen diagramas de dispersión, histogramas, nodos de red y gráficos de evaluación.

Modelado: Este tipo de nodo puede utilizar algoritmos de modelado disponibles en IBM SPSS Modeler, como redes neuronales, árboles de decisión, redes bayesianas, algoritmos de clustering, máquinas de vectores de soporte y clasificación de datos.

Salida: este nodo genera varias salidas, como datos, gráficos y modelos, que se pueden ver en IBM SPSS Modeler.

Salida: Las diversas salidas generadas por el nodo se pueden ver en aplicaciones externas como IBM SPSS Data Collection, base de datos, XML, datos de IBM SPSSanalytic Server o Excel.

IBM SPSS Statistics: este nodo importa y exporta datos de IBM SPSS Statistics hacia y desde datos de SPSS Statistics, además de ejecutar las funciones proporcionadas por SPSS Statistics.

Introducción a IBM SPSS SDAP

1. Instalar SDAP

IBM SPSS Data Access Pack (SDAP) es un controlador ODBC incluido en el disco de instalación de Modeler. Ejecute el archivo setup.exe para iniciar la instalación del controlador y seleccione todos los controladores relevantes. SDAP debe instalarse en la misma máquina que el Modeler Server utilizado, es decir, si se utiliza un Modeler Server local, instálelo en la máquina donde se encuentra el Modeler Client si el Modeler Server y el Modeler Client utilizados no están en el mismo; máquina, debe instalarlo en la máquina donde se encuentra Modeler Server.

Figura 2. Instalación de SDAP

2. Crear ODBC

Tomando Windows 7 como ejemplo, después de instalar el controlador SDAP, seleccione "Todos los programas", seleccione "Herramientas administrativas", seleccione "Fuentes de datos (ODBC)" y luego seleccione la pestaña "DSN del sistema" en el cuadro de diálogo que se abre. Seleccione la pestaña DSN del sistema, luego haga clic en Agregar y, en el cuadro de diálogo que se abre, seleccione el controlador para la base de datos que desea agregar

Figura 3. Seleccione el controlador

Haga clic en el botón "Finalizar" para configurar la información de la base de datos. Se debe ingresar información diferente para diferentes datos. Este artículo tomará como ejemplos los principales IBM DB2, Oracle y SQL Server. Como se muestra en la Figura 4:

Figura 4. Crear DB2 ODBC

En el cuadro de diálogo "Configuración del controlador de protocolo de línea DB2 ODBC", debe especificar lo siguiente:

Nombre de la fuente de datos (especifique el nombre ODBC);

Dirección IP, especifique DB2 (Oracle);

Nombre de la fuente de datos, especifique el nombre ODBC;

Nombre de la fuente de datos, especifique el nombre ODBC. Dirección IP, especifique el nombre de host o la dirección IP del servidor donde se encuentra el RDBMS DB2 (Oracle, SQL Server);

puerto TCP (el valor predeterminado para DB2 es 50000, el valor predeterminado para Oracle es 1521, y el valor predeterminado para SQL Server es 1433);

p>

Nombre de la base de datos, especifique la base de datos a la que conectarse.

Haga clic en "Probar conexión", ingrese el nombre de usuario y la contraseña de la base de datos a la que desea conectarse y luego haga clic en el botón "Aceptar". Se mostrará un mensaje de "¡Conexión establecida!", indicando que la configuración se realizó correctamente.

Para la base de datos Oracle,

Figura 5. Crear ODBC de Oracle

Para la base de datos SQL Server

Abra el cliente IBM SPSS Modeler y haga clic en Haga clic en el botón del servidor en la esquina inferior izquierda y seleccione el servidor Modeler al que conectarse. Si SDAP está instalado en la misma computadora que el cliente Modeler, seleccione Servidor local. Si no está instalando en la misma máquina sino en un servidor Modeler separado, seleccione el botón Agregar, ingrese el nombre de host o la dirección IP de la máquina, establezca el nombre de usuario y la contraseña de inicio de sesión y haga clic en el botón Finalizar. /p>

Después de conectarse a Modeler Server, haga doble clic en el nodo de la base de datos en la opción de origen para agregar el nodo de origen de la base de datos al espacio de trabajo de flujo de datos. Haga doble clic en el nodo y seleccione Agregar conexión de base de datos en el. elemento de datos. En este momento, Modeler Client consultará todos los ODBC en la máquina donde se encuentra Modeler Server, encontrará la información de conexión de la base de datos que necesita conectarse, ingresará el nombre de usuario o la dirección IP, establecerá el nombre de usuario de inicio de sesión y contraseña y haga clic en el botón Finalizar. Conéctese a la información de conexión de la base de datos, ingrese el nombre de usuario y la contraseña, haga clic en el botón Conectar, seleccione Finalizar y luego ingrese la tabla seleccionada, aquí está SQL Server como ejemplo

Haga clic en el botón Finalizar y haga clic en la columna Nombre de la tabla Seleccione el botón y seleccione el nombre de la tabla. Aquí tomamos dbo.Modeler_Drug1 como ejemplo

Después de seleccionar la tabla, el nodo lee automáticamente la estructura de la tabla

Después de seleccionar. la tabla, el nodo lee automáticamente el nombre y la estructura de la tabla. Estructura

Utilice el mismo método para agregar dos nodos de base de datos más, seleccione ODBC para DB2 y Oracle, ingrese el nombre de usuario y la contraseña y luego seleccione el nombre de la tabla para leer los datos. Esto completa la operación de lectura de datos de la base de datos usando Modeler Client. A continuación, necesitamos procesar los datos.

Primero, utilizamos el nodo Merge de Modeler para fusionar los datos de las dos tablas en DB2 y Oracle. El resultado del procesamiento es que parte de los datos que obtenemos provienen de la base de datos DB2 y parte de. la base de datos Oracle.

Para datos de la base de datos Oracle, tomamos los valores de 3 campos

Para datos de la base de datos DB2, tomamos los valores de 4 campos

Haga doble clic en el nodo de combinación en la opción de registro, luego conecte los nodos DB2 y Oracle al nodo y luego haga doble clic en el nodo de combinación. Puede ver que los datos procesados ​​constan de 7 campos de DB2 y Oracle

Los datos procesados. consta de 7 campos de DB2 y Oracle. Compuesto por 7 campos

Los datos procesados ​​constan de 7 campos de DB2 y Oracle. Haga doble clic en el nodo de combinación y podrá ver que los datos procesados ​​incluyen 7 campos de DB2 y Oracle.

Luego, debemos agregar los datos combinados a los datos de la base de datos de SQL Server a través del nodo Agregar del Modelador. . Haga doble clic en el nodo Agregar en las opciones de registro y conecte el nodo Combinar y el nodo Fuente de datos de SQL Server en el Espacio de trabajo de transmisión para obtener datos de las tres bases de datos.

Podemos procesar aún más los datos a través de otros nodos en el Modelador, como el nodo de selección, donde podemos establecer condiciones para seleccionar los datos que necesitamos, o el nodo de clasificación para ordenar ciertas columnas, etc. No lo presentaré en detalle aquí.

3. Modelado

Lo último que debemos hacer es modelar los datos procesados. Primero, debemos establecer la columna de destino, es decir, la columna que debe predecirse. . Configuramos la columna de destino a través del nodo Tipo del Modelador, hacemos doble clic en el nodo Tipo en las opciones de campo, conectamos el nodo Agregar en el espacio de trabajo Flujo, hacemos doble clic en el nodo Tipo, cambiamos la función de la columna de fármaco a objetivo, y cambie otros valores predeterminados para ingresar

Luego elegimos el modelo que queremos usar. Aquí tomamos la red neuronal como ejemplo. Por ejemplo, en la selección del modelo, haga doble clic en el nodo de la red neuronal, conecte el nodo Tipo en el espacio de trabajo de flujo, abra el nodo de la red neuronal y podrá ver que estamos prediciendo la columna que se siente como Objetivo a través de todas las columnas con la función de Entrada, por supuesto, podemos modificar Entrada y Destino aquí, cambiaremos la función de Edad de Entrada a Destino

Haga clic en Ejecutar y ejecutar. /p>

Al hacer clic en el botón Ejecutar se genera un nuevo nugget de modelo que se adjunta automáticamente al espacio de trabajo de flujo con un vínculo al nodo de modelado que creó el nugget de modelo. Para ver los detalles de un modelo, haga clic con el botón derecho en el nugget de modelo y seleccione Examinar (en el panel Opciones de modelo) o Editar (en el espacio de trabajo).

Haga doble clic para abrir el nugget de modelo generado y podrá vea qué El valor tiene el mayor impacto en los resultados de la predicción. Cuanto más ancha y profunda sea la línea, mayor será el impacto.

Evaluación del modelo

Una vez completado el modelado, el Es necesario evaluar la precisión del modelo, lo que significa que es necesario calificar algunos registros. Aquí utilizamos datos sin procesar para evaluar y comparar los resultados predichos por el modelo con los resultados reales.

Para ver puntuaciones o predicciones, conecte un nodo de tabla al nugget de modelo (como se muestra en la imagen de arriba), haga doble clic en el nodo de tabla y haga clic en Ejecutar. Como puede ver en la tabla, el modelo crea dos campos denominados $N-Age y $N-Drug para mostrar los valores previstos.

Reimprimir