Red de conocimiento informático - Material del sitio web - Herramientas de software y escenarios de aplicación de uso común para la investigación de big data

Herramientas de software y escenarios de aplicación de uso común para la investigación de big data

Herramientas de software y escenarios de aplicación de uso común para la investigación de big data

Hoy en día, big data se ha convertido cada vez más en un objetivo de investigación importante en la industria de la investigación. Ante su gran volumen de datos, sus características multidimensionales y heterogéneas, así como la expansión de los métodos analíticos, las herramientas estadísticas tradicionales no han podido hacerle frente.

Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas. Muchas nuevas herramientas de análisis de software sirven como ayuda importante en la investigación profunda de big data y también se han convertido en conocimientos y habilidades que los científicos de datos deben dominar.

Sin embargo, la complejidad de la situación real determina que no exista una herramienta definitiva para resolver todos los problemas. En el proceso de investigación real, es necesario seleccionar de manera flexible las herramientas más adecuadas (o incluso utilizar una combinación de múltiples herramientas) de acuerdo con la situación real para completar mejor la exploración de la investigación.

Con este fin, basándose en la situación real de los investigadores (personal no técnico), este artículo presenta algunas de las principales herramientas de software involucradas en la investigación actual de big data (porque hay muchos software relacionados, solo comúnmente se presentan los usados) y se detallan más las características de la aplicación y los escenarios adecuados para que sea más fácil para los investigadores aprenderla y usarla de manera específica. Conceptos básicos

Análisis tradicional/estadísticas empresariales

Excel, SPSS y SAS no son extraños para los investigadores.

Excel, como software de hoja de cálculo, es adecuado para necesidades estadísticas simples (agrupación/suma, etc.) Debido a que es conveniente y fácil de usar, y sus funciones pueden satisfacer las necesidades de muchos escenarios. De hecho, se ha convertido en la herramienta de software más utilizada entre los investigadores. Sus desventajas son que tiene una única función y un tamaño pequeño de datos que pueden procesarse (esto es un dolor de cabeza particular para muchos investigadores). En los últimos dos años, Excel también ha realizado algunas mejoras en big data (como visualización geográfica y análisis de relaciones de red), pero sus capacidades de aplicación son limitadas.

SPSS (SPSS Statistics) y SAS, como software estadístico comercial, proporcionan análisis estadísticos clásicos (como regresión, varianza, factorial, análisis multivariado, etc.) comúnmente utilizados en investigación.

SPSS es liviano y fácil de usar, pero tiene relativamente pocas funciones y es adecuado para análisis estadísticos básicos de rutina.

SAS tiene funciones ricas y potentes (incluidas capacidades de dibujo) y admite programación. para ampliar sus capacidades de análisis, adecuado para análisis estadísticos complejos y exigentes.

Los tres software anteriores tienen varias incomodidades al enfrentarse al entorno de big data, y los detalles no se repetirán. Pero esto no significa que no tenga valor de uso. Si se utilizan metodologías de investigación tradicionales para analizar big data, los resultados de investigación intermedios obtenidos a partir de recursos masivos de datos sin procesar después del preprocesamiento (como la reducción de dimensionalidad y la agregación estadística, etc.) son muy adecuados para utilizarlos en futuras investigaciones.

Minería de datos

La minería de datos es un campo importante de la aplicación de big data. Basado en el análisis estadístico tradicional, pone más énfasis en proporcionar métodos de aprendizaje automático y presta atención a relaciones de datos complejas. espacio de alta dimensión y capacidades de deducción. El representante es SPSS Modeler (tenga en cuenta que no es SPSS Statistics, su predecesor es Clementine).

Las funciones estadísticas de SPSS Modeler son relativamente limitadas y proporciona principalmente algoritmos de aprendizaje automático para minería comercial (árboles de decisión, redes neuronales). , clasificación, agrupamiento y predicción, etc.) implementación. Al mismo tiempo, su preprocesamiento de datos y análisis asistido por resultados también son bastante convenientes, lo que es especialmente adecuado para la minería rápida en un entorno empresarial. Sin embargo, en términos de potencia de procesamiento, en realidad resulta difícil hacer frente a escalas de datos de más de 100 millones de niveles.

Otro software comercial, Matlab, también puede proporcionar una gran cantidad de algoritmos de minería de datos, pero sus características se centran más en los campos de la informática científica y de ingeniería. El famoso software de minería de datos de código abierto Weka tiene menos funciones y el preprocesamiento de datos y el análisis de resultados también son engorrosos. Es más adecuado para académicos o usuarios con capacidades de preprocesamiento de datos. Nivel intermedio

1. Análisis visual general de big data

En los últimos dos años, han surgido muchas herramientas de análisis orientadas a big data con capacidades de visualización en el campo de la investigación empresarial, TableAU. Es sin duda un destacado representante.

Las principales ventajas de TableAU son su compatibilidad con múltiples fuentes/formatos de big data, numerosos tipos de gráficos visuales y el uso de arrastrar y soltar. Es rápido para comenzar, muy adecuado para investigadores y puede hacerlo. Cubre la mayor parte de la escena de investigación de análisis. Sin embargo, cabe señalar que no proporciona soporte para algoritmos clásicos de estadística y aprendizaje automático. Por lo tanto, puede reemplazar a Excel, pero no puede reemplazar el software de estadística y minería de datos. Además, en términos de velocidad de procesamiento real, creo que cuando se enfrenta a datos más grandes (instancias que superan los 30 millones de registros), no es tan rápido como se presentó oficialmente.

2. Análisis de relaciones

El análisis de relaciones es un nuevo punto de análisis en el entorno de big data (como gráficos de difusión de información, redes de relaciones sociales, etc.). las relaciones entre. Entre las herramientas relacionadas, las adecuadas para los investigadores de datos son algunas herramientas de escritorio visuales y livianas, la más utilizada de las cuales es Gephi.

Gephi es un software gratuito que resuelve muchas necesidades de análisis de redes gráficas. Tiene muchos complementos, es potente y fácil de usar. Muchos de los diversos gráficos del espectro de comunicación/relación social que vemos a menudo se generan en función de su función de gráfico dirigido por la Fuerza. Sin embargo, debido a que está escrito en Java, el rendimiento del procesamiento es limitado (parece que a menudo cae en animación suspendida cuando se procesan más de 100.000 nodos/bordes, por ejemplo, cuando se analiza la relación entre millones de nodos (como el punto de acceso de Weibo). rutas de propagación), primero se requiere alisar y podar. Para procesar datos de redes de relaciones (como relaciones de redes sociales) a mayor escala (como miles de millones o más), se necesita una base de datos relacional de gráficos especializada (como GraphLab / GraphX) para respaldarlo. Sus requisitos técnicos son relativamente altos y no lo harán. ser discutido aquí.

3. Análisis de datos espaciotemporales

Muchos software actuales (incluido TableAU) proporcionan funciones de análisis visual de datos espaciotemporales. Sin embargo, en términos de experiencia del usuario, la mayoría de ellos solo son adecuados para análisis de visualización visual a pequeña escala (nivel 10,000) y rara vez admiten una exploración agregada rápida de diferentes granularidades.

Si desea analizar decenas de millones de datos espacio-temporales, como el tiempo y la distribución geográfica de las publicaciones de cientos de millones de usuarios de Sina Weibo (exploración en múltiples niveles de granularidad desde la provincia hasta la calle) , se recomienda utilizar NanoCubes (/). Este software de código abierto puede proporcionar una visualización rápida de miles de millones de datos espacio-temporales y análisis de exploración y perforación en tiempo real de varios niveles en las computadoras de oficina diarias. La siguiente imagen es un análisis del tiempo y lugar del crimen en Chicago. El sitio web tiene más ejemplos de demostración de análisis en tiempo real

4. Análisis de texto/no estructurado

Basado en natural. Procesamiento del lenguaje (PNL) El análisis de texto tiene usos importantes en el análisis de big data de contenido no estructurado (como reseñas de Internet/redes sociales/comercio electrónico) (e incluso el análisis de los resultados de preguntas abiertas de encuestas). El procesamiento de su aplicación implica segmentación de palabras, extracción de características, análisis de sentimientos, modelos multitemáticos y muchos otros contenidos.

Debido a la dificultad de implementación y las diferencias en los campos, actualmente solo existen en el mercado algunos paquetes de funciones de código abierto o API en la nube (como BosonNLP) que proporcionan algunas funciones de procesamiento básicas. software adecuado para la investigación comercial y el análisis de textos chinos (si alguien lo sabe, hágamelo saber). En este caso, cada empresa comercial (como HCR) confía principalmente en su fortaleza técnica interna para desarrollar de forma independiente funciones analíticas adecuadas a las necesidades del negocio. Capítulo avanzado

Las diversas herramientas de análisis de big data presentadas anteriormente pueden manejar menos de 100 millones de datos y son principalmente datos estructurados. Cuando realmente se enfrenta a los siguientes requisitos: miles de millones o más/procesamiento en tiempo semi-real/requisitos complejos no estandarizados, generalmente es necesario utilizar programación (o incluso marcos informáticos distribuidos como Hadoop/Spark) para completar el análisis relevante. Si puede dominar habilidades relevantes en lenguajes de programación, la capacidad analítica del investigador será aún más poderosa.

Los lenguajes de programación actualmente adecuados para el procesamiento de big data incluyen:

Lenguaje R: el más adecuado para que lo aprendan personas con experiencia en investigación estadística, con una rica biblioteca de funciones de análisis estadístico y Funciones de dibujo visual. Llame directamente. Hadoop-R también puede soportar el procesamiento de decenas de miles de millones de datos. En comparación con SAS, tiene una mayor potencia informática y puede resolver problemas de escala de datos más complejos y de mayor tamaño.

Lenguaje Python: la mayor ventaja es que es fácil de desarrollar en escenarios de procesamiento de texto y procesamiento de grandes datos. En campos de análisis relacionados, Python está reemplazando cada vez más a R.

Lenguaje Java: un lenguaje de programación de propósito general con las capacidades más completas y la mayor cantidad de recursos de procesamiento de big data de código abierto (estadísticas, aprendizaje automático, PNL, etc.) para uso directo. También es compatible con todos los marcos informáticos distribuidos (Hadoop/Spark).

El contenido anterior presenta las características y escenarios aplicables de diferentes software/lenguajes de herramientas para la investigación de big data. Estas herramientas pueden mejorar en gran medida las capacidades analíticas de los investigadores en un entorno de big data, pero lo más importante es que los investigadores deben utilizar su conocimiento profundo del negocio para obtener información y descubrir resultados profundos a partir de los resultados de los datos.

Lo anterior es el contenido compartido por el editor sobre herramientas de software de uso común y escenarios de aplicación para la investigación de big data. Para obtener más información, puede seguir a Global Ivy para compartir más información.