Por qué utilizar Java o Python para la minería de datos
La razón principal es la conveniencia. Los módulos de terceros de Python son muy ricos, la sintaxis es muy concisa y el grado de libertad es muy alto. Los módulos numpy, scipy y matplotlib de Python pueden completar todas las funciones de spss. Puede procesar datos en métodos personalizados de acuerdo con sus propias necesidades. Para la limpieza y el resumen, si es necesario, también puede conectarse a SQL y realizar aprendizaje automático. En muchos casos, los datos se recopilan de Internet mediante rastreadores web, y este trabajo se puede realizar. completado de manera muy simple. Conéctese y realice aprendizaje automático. Muchas veces los datos recopilados de Internet utilizan rastreadores web. Python tiene el módulo urllib, que puede completar fácilmente este trabajo. A veces, los datos recopilados por el rastreador necesitan procesar los códigos de verificación de algunos sitios web. El módulo PIL se puede identificar fácilmente. Si necesita crear redes neuronales y algoritmos genéticos, scipy también puede hacerlo. En este trabajo, hay un código como si-entonces para los árboles de decisión al realizar la agrupación, no es necesario limitar el número de agrupaciones y se puede ajustar de acuerdo con la situación real. Hay agrupaciones de k-medias, agrupaciones DBSCAN. a veces Es necesario combinar dos métodos de agrupación para realizar análisis de agrupaciones de datos a gran escala. Estos deben completarse mediante codificación. Además, existen muchos métodos de clasificación basados en la distancia. Hay muchas expresiones de distancia para elegir. La distancia euclidiana, la distancia del coseno, la distancia de Minkowski, la distancia de la cuadra de la ciudad, etc., aunque no son complicadas, son muy convenientes de implementar con la programación de Python. Para los métodos de clasificación basados en contenido, Python tiene un potente módulo de procesamiento de lenguaje natural nltk, que puede ser Lingüístico. las frases se cortan, recopilan, clasifican y cuentan.
En resumen, es muy, muy conveniente. Siempre que tenga suficientes conocimientos de Python, descubrirá que puede realizar rápidamente todas sus ideas con solo usar esta herramienta.