Programación necesaria para el análisis de mercado
Análisis de big data, tienen un gran interés en el impacto en las empresas. El análisis de big data es el descubrimiento de patrones, correlaciones y otra información útil en el proceso de estudiar grandes cantidades de datos, que puede ayudar a las empresas a adaptarse mejor a los cambios y tomar decisiones más inteligentes.
Primero, Hadoop
Hadoop es un marco de código abierto que permite que un grupo completo de computadoras almacene y procese big data en un entorno distribuido utilizando un modelo de programación simple. Está diseñado para escalar desde un único servidor hasta miles de máquinas, cada una de las cuales puede proporcionar computación y almacenamiento local.
Hadoop es un marco de software que puede distribuir grandes cantidades de datos. Pero Hadoop lo maneja de forma confiable, eficiente y escalable. Hadoop es confiable. Incluso si los elementos informáticos y el almacenamiento fallan, mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento se pueda redistribuir a los nodos fallidos. Hadoop es eficiente, funciona en paralelo y acelera el procesamiento mediante procesamiento paralelo. Hadoop también es escalable y puede manejar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que el costo es relativamente bajo y cualquiera puede usarlo.
Hadoop es una plataforma informática distribuida que es fácil de construir y utilizar. Los usuarios pueden desarrollar y ejecutar fácilmente aplicaciones que procesan cantidades masivas de datos en Hadoop. Tiene principalmente las siguientes ventajas:
1. La capacidad de Hadoop para almacenar y procesar datos poco a poco es digna de confianza.
2. Alta escalabilidad. Hadoop distribuye datos y completa tareas informáticas entre los grupos de ordenadores disponibles y puede escalarse fácilmente a miles de nodos.
3. Alta eficiencia. Hadoop puede mover datos dinámicamente entre nodos para garantizar el equilibrio dinámico de cada nodo, por lo que la velocidad de procesamiento es muy rápida.
4. Alta tolerancia a fallos. Hadoop puede guardar automáticamente múltiples copias de datos y redistribuir automáticamente las tareas fallidas.
Hadoop tiene un framework escrito en Java, por lo que es ideal para ejecutarse en una plataforma de producción Linux. Las aplicaciones en Hadoop también se pueden escribir en otros lenguajes, como C++.
En segundo lugar, HPCC
La abreviatura de HPCC, informática y comunicaciones de alto rendimiento. En 1993, el Comité Coordinador Federal de Ciencia, Ingeniería y Tecnología de los Estados Unidos presentó un informe al Congreso sobre el "Proyecto de Grandes Desafíos: Computación y Comunicaciones de Alto Rendimiento", también conocido como el plan HPCC, el Proyecto de Estrategia Científica del Presidente de los Estados Unidos para resolver un número. de importantes desafíos científicos y tecnológicos mediante el fortalecimiento de la investigación y el desarrollo. HPCC es un plan para implementar la superautopista de la información en Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de Ethernet, desarrollar tecnología de red gigabit y ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.
El proyecto consta principalmente de cinco partes:
1. Sistema informático de alto rendimiento (HPCS), que incluye investigación sobre generaciones futuras de sistemas informáticos, herramientas de diseño de sistemas, sistemas típicos avanzados y Evaluación del sistema original, etc.
2. Algoritmos y tecnología de software avanzado (ASTA), que incluye soporte de software para grandes desafíos, diseño de nuevos algoritmos, ramas y herramientas de software, centros de investigación de computación y computación de alto rendimiento, etc.
3. Red Nacional de Investigación y Educación (NREN), que incluye investigación y desarrollo de estaciones de acoplamiento y transmisión de más de 65.438 millones de bits
4. incluyendo investigación básica, capacitación, educación y materiales de cursos diseñados para aumentar el conocimiento de las innovaciones en el campo de la computación escalable de alto rendimiento recompensando a los investigadores (investigaciones iniciales y a largo plazo) y para aumentar las habilidades y la capacitación mejorando la educación y el alto rendimiento. capacitación en informática y comunicación Una empresa conjunta de personal y que proporciona la infraestructura necesaria para apoyar estas investigaciones y actividades de investigación;
5. estado avanzado de la tecnología de la información.
En tercer lugar, Storm
Storm es un sistema informático en tiempo real gratuito, de código abierto, distribuido y altamente tolerante a fallas. Storm simplifica los cálculos de flujo continuo, compensando los requisitos en tiempo real que el procesamiento por lotes de Hadoop no puede cumplir. Storm se usa comúnmente para análisis en tiempo real, aprendizaje automático en línea, computación continua, llamadas remotas distribuidas y ETL. La implementación y administración de Storm es muy simple y el rendimiento de Storm es sobresaliente entre herramientas informáticas de flujo similares.
Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y puede usarse para procesar datos por lotes de Hadoop. Storm es simple, admite múltiples lenguajes de programación y es divertido de usar. La tormenta proviene de Twitter y otras empresas de aplicaciones conocidas como Groupon, Taobao, Alipay, Alibaba, Music Elements, Admaster, etc.
Storm tiene muchas áreas de aplicación: análisis en tiempo real, aprendizaje automático en línea, computación ininterrumpida, RPC distribuido (Protocolo de llamada a procedimiento remoto, solicitud de servicios de programas informáticos remotos a través de la red), ETL (Extract-Transform- Carga) abreviatura) y así sucesivamente. La velocidad de procesamiento de Storm es asombrosa: después de las pruebas, cada nodo puede procesar 654,38+0 millones de tuplas de datos por segundo. Storm es escalable, tolerante a fallas y fácil de configurar y operar.
Cuarto, Apache Drill
Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar las consultas de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado "Drill". Apache Drill implementa Dremel de Google. "Drill" ha funcionado como un proyecto incubador de Apache y seguirá promoviéndose entre ingenieros de software de todo el mundo.
Este proyecto creará una versión de código abierto de la herramienta Google Dremel Hadoop (utilizada por Google para acelerar las herramientas de análisis de datos Hadoop para aplicaciones de Internet). Y la "perforación" ayudará a los usuarios de Hadoop a consultar conjuntos de datos masivos más rápidamente.
El proyecto "Drill" en realidad está inspirado en el proyecto Dremel de Google: ayuda a Google a analizar y procesar conjuntos de datos masivos, incluido el análisis y rastreo de documentos web, el seguimiento de datos de aplicaciones instaladas en Android Market, el análisis de correos electrónicos no deseados y analizar los resultados de las pruebas en el sistema de compilación distribuida de Google.
Al desarrollar el proyecto de código abierto Apache "Drill", las organizaciones esperan establecer la interfaz API de Drill y una arquitectura flexible y poderosa para ayudar a admitir una amplia gama de fuentes de datos, formatos de datos y lenguajes de consulta.
Verb (abreviatura de verbo) Rapid Miner
RapidMiner proporciona programas de aprendizaje automático. La minería de datos incluye visualización, procesamiento, modelado estadístico y análisis predictivo de datos.
RapidMiner es la solución de minería de datos líder en el mundo y utiliza en gran medida tecnología avanzada. Sus tareas de minería de datos cubren una amplia gama, incluidas diversas artes de datos, que pueden simplificar el diseño y la evaluación de los procesos de minería de datos.
Funciones y características
Proporciona tecnología y bibliotecas de minería de datos de forma gratuita; utiliza 100% código Java (puede ejecutarse en el sistema operativo es simple, potente e intuitivo); el XML interno garantiza un formato estandarizado para expresar el proceso de extracción de datos de intercambio; los procesos grandes se pueden automatizar utilizando lenguajes de secuencias de comandos simples (modo por lotes) automatización Aplicación a gran escala; API Java (interfaz de programación de aplicaciones); mecanismo de promoción y complemento simple; modelado visual de muchos datos de alta dimensión con el respaldo de más de 400 operadores de minería de datos; aplicado con éxito Muchas áreas de aplicación diferentes, incluida la minería de textos, la minería multimedia, el diseño de funciones, la minería de flujo de datos, los métodos de desarrollo integrados y la minería de datos distribuidos.
Limitaciones de RapidMiner; RapidMiner tiene un límite de tamaño en el número de filas; para RapidMiner, necesita más recursos de hardware que ODM y SAS.
Verbo intransitivo Pentaho BI
La plataforma Pentaho BI es diferente a los productos de BI tradicionales. Es un marco centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes para inteligencia empresarial como Jfree y Quartz para formar una solución de inteligencia empresarial compleja y completa.
La plataforma Pentaho BI es la arquitectura central y la base de la suite Pentaho Open BI. Está centrada en los procesos porque su controlador central es un motor de flujo de trabajo. El motor de flujo de trabajo utiliza definiciones de procesos para definir los procesos de inteligencia empresarial que se ejecutan en la plataforma de BI. Los procesos se pueden personalizar fácilmente y agregar nuevos procesos. Las plataformas de BI incluyen componentes e informes para analizar el desempeño de estos procesos. Actualmente, los principales componentes de Pentaho incluyen generación de informes, análisis, extracción de datos y gestión del flujo de trabajo. Estos componentes se integran a la plataforma Pentaho a través de tecnologías como J2EE, WebService, SOAP, HTTP, Java, JavaScript y Portals. La distribución de Pentaho se realiza principalmente en forma de Pentaho SDK.
Pentaho SDK*** consta de cinco partes: plataforma Pentaho, base de datos de muestra Pentaho, plataforma Pentaho que puede ejecutarse de forma independiente, muestras de soluciones Pentaho y un servidor de red Pentaho preconfigurado. Entre ellos, la plataforma Pentaho es la parte más importante de la plataforma Pentaho, incluido el código fuente principal de la plataforma Pentaho; la base de datos Pentaho proporciona servicios de datos para el funcionamiento normal de la plataforma Pentaho, incluida información de configuración, información relacionada con la solución, etc. , no es necesario para la plataforma Pentaho y puede ser reemplazado por otros servicios de base de datos mediante la configuración. La plataforma Pentaho que puede ejecutarse de forma independiente es un ejemplo del modo de operación independiente de la plataforma Pentaho, que demuestra cómo hacer que la plataforma Pentaho se ejecute de forma independiente sin ella. el soporte de un servidor de aplicaciones.
La muestra de solución Pentaho es un proyecto de Eclipse que demuestra cómo desarrollar soluciones de inteligencia empresarial relevantes para la plataforma Pentaho.
La plataforma Pentaho BI está construida sobre servidores, motores y componentes. Estos proporcionan capacidades de servidor J2EE, seguridad, portal, flujo de trabajo, motor de reglas, diagramación, colaboración, gestión de contenido, integración de datos, análisis y modelado de sistemas. La mayoría de estos componentes están basados en estándares y pueden ser reemplazados por otros productos.
Siete, Druid
Druid es un sistema de almacenamiento de análisis de datos en tiempo real y el mejor grupo de conexiones de bases de datos en lenguaje Java. Druid puede proporcionar poderosas capacidades de monitoreo y expansión.
Ocho, Anbari
Herramienta de monitoreo y construcción de plataformas de big data; de manera similar, CDH.
1. Proporcionar un clúster de Hadoop
Ambari proporciona un asistente paso a paso para instalar los servicios de Hadoop en cualquier número de hosts.
Ambari maneja la configuración de los servicios agrupados de Hadoop.
2. Administrar el clúster de Hadoop
Ambari proporciona administración centralizada para iniciar, detener y reconfigurar los servicios de Hadoop para todo el clúster.
3. Monitorear el clúster de Hadoop
Ambari proporciona un panel para monitorear la salud y el estado del clúster de Hadoop.
9. Spark
Marco de procesamiento de datos a gran escala (puede manejar tres escenarios de procesamiento de datos comunes en las empresas: procesamiento de datos por lotes complejos; consulta interactiva basada en datos históricos; basada en datos reales). tiempo Procesamiento de flujos de datos, Ceph: sistema de archivos distribuido Linux
X.Tableau Public
1. ¿Qué es Tableau Public? > Es una herramienta simple e intuitiva porque proporciona información interesante a través de la visualización de datos. Límite de millones de filas de Tableau Public. Debido a que es más fácil de usar que la mayoría de los demás actores del mercado de análisis de datos, puede investigar una hipótesis. datos y verificar sus propias opiniones.
2. Con Tableau Public, puede publicar visualizaciones de datos interactivas en la web; no se requieren conocimientos de programación; las visualizaciones publicadas en Tableau Public se pueden integrar en blogs; puede compartir su contenido favorito por correo electrónico o redes sociales. Esto facilita su descarga. Conviértase en la mejor herramienta de análisis de big data.
3. público, con acceso limitado; límite de tamaño de datos; no se puede conectar a [R; la única forma de leer es a través de la fuente OData, que es Excel o txt. ¿Una herramienta de análisis de datos? /p>
Software de limpieza de datos, anteriormente conocido como GoogleRefine, porque le ayuda a limpiar datos para el análisis. Además, colocar columnas debajo de columnas es muy similar a una tabla de base de datos relacional. OpenRefine
Limpiar datos desordenados; convertir datos; analizar datos de sitios web; agregar datos a conjuntos de datos obteniendo datos de servicios web. Por ejemplo, OpenRefine se puede utilizar para asignar direcciones según coordenadas geográficas.
3. Limitaciones de OpenRefine
Open Refine no es adecuado para grandes conjuntos de datos; el refinamiento no funciona para big data
KNIME
1. ¿Qué es la herramienta de análisis de datos KNIME?
KNIME le ayuda a manipular, analizar y modelar datos a través de programación visual. Se utiliza para integrar componentes de minería de datos y aprendizaje automático. >
2. Propósito de KNIME
En lugar de escribir bloques de código, debe eliminar y arrastrar los puntos de conexión entre actividades; las herramientas de análisis de datos admiten lenguajes de programación, como el tiempo de ejecución escalable; datos químicos, minería de textos, Python y R.
3. Limitaciones de KNIME
Visualización deficiente de datos
Trece. Tabla Google Fusion
1. ¿Qué es la tabla Google Fusion?
Para herramientas de datos, tenemos una versión más moderna y más grande de Google Spreadsheets. Una herramienta increíble para análisis de datos, gráficos y visualización de grandes conjuntos de datos. Además, las tablas de Google Fusion se pueden agregar a la lista de herramientas de análisis empresarial. Esta es también una de las mejores herramientas de análisis de big data, 18 herramientas de análisis de big data.
2. Utilice la tabla Google Fusion.
Visualice datos tabulares más grandes en línea; filtre resúmenes en cientos de miles de filas; combine tablas con otros datos en la web; puede fusionar dos o tres tablas para producir una única visualización de conjunto de datos;
3. Limitaciones de Google Fusion Tables
Solo las primeras 100.000 filas de datos de la tabla se incluyen en los resultados de la consulta o se asignan datos en llamadas API. El tamaño total no puede exceder 1 MB.
Catorce. NodeXL
1. ¿Qué es NodeXL?
Es un software de visualización y análisis de relaciones y redes. NodeXL proporciona cálculos precisos. Este es un software de visualización y análisis de redes gratuito (no profesional) y de código abierto. NodeXL es una de las mejores herramientas estadísticas para el análisis de datos. Esto incluye indicadores de red avanzados. Además, acceda a programas de importación y automatización de datos de redes sociales.
2. Propósito de NodeXL
Esta es una herramienta de análisis de datos en Excel que puede ayudar a lograr los siguientes aspectos:
Visualización gráfica de datos; ; presentación de datos; el software está integrado en Microsoft Excel 2007, 2010, 2013 y 2016. Se abre como un libro de trabajo que contiene varias hojas de trabajo que contienen elementos estructurales gráficos. Esto es como nodos y aristas; el software puede importar varios formatos de gráficos. Esta matriz de adyacencia, Pajak. Neto, UCINet. dl, GraphML y listas de bordes.
3. Limitaciones de NodeXL
Para un problema específico, es necesario utilizar varios términos semilla para ejecutar la extracción de datos en momentos ligeramente diferentes.
Quince, Wolfram Alpha
1. ¿Qué es Wolfram Alpha?
Este es un motor de conocimiento computacional o motor de respuesta creado por Steve Wolfram.
2. Uso de Wolfram Alpha
Es un componente complementario para Siri de Apple; proporciona respuestas detalladas a búsquedas técnicas y resuelve problemas de cálculo, ayuda a los usuarios empresariales a obtener gráficos de información; y gráficos. También ayuda a crear resúmenes de temas, información de productos e historial de precios avanzado.
3. Limitaciones de Wolfram Alpha
Wolfram Alpha sólo puede manejar cifras y hechos públicos, no opiniones; limita el tiempo de cálculo de cada consulta; estos se utilizan para el análisis de datos; con las herramientas estadísticas?
16. Operador de Búsqueda de Google
1. ¿Qué es el Operador de Búsqueda de Google?
Es un recurso poderoso que le ayudará a filtrar los resultados de búsqueda de Google. Esto le brindará la información más relevante y útil al instante.
2. Uso de los operadores de búsqueda de Google
Filtrar los resultados de búsqueda de Google más rápidamente; las poderosas herramientas de análisis de datos de Google pueden ayudar a descubrir nueva información.
17. Excel Solver
1. ¿Qué es Excel Solver?
El complemento Solver es un programa complementario de Microsoft Office Excel. Además, está disponible cuando instala Microsoft Excel u Office. Es una herramienta de planificación y optimización lineal en Excel. Esto le permite establecer restricciones. Es una herramienta de optimización avanzada que ayuda a resolver problemas rápidamente.
2. Uso del Solver
El valor final encontrado por el solucionador es la solución a la relación y la toma de decisiones; utiliza una variedad de métodos y se deriva de la optimización no lineal. También hay solucionadores desde programación lineal hasta algoritmos evolutivos y algoritmos genéticos.
3. Limitaciones de Solver
Los errores de extensión son un aspecto del que carece Excel Solver. Afectará el tiempo y la calidad de la solución; Solver afectará la solucion intrínseca del modelo;
18. Sistema de soporte de decisiones Dataiku
1. ¿Qué es Dataiku DSS?
Esta es una plataforma de software colaborativo de ciencia de datos. Además, ayuda con la formación de equipos, la creación de prototipos y la exploración. Sin embargo, puede proporcionar sus propios productos de datos de manera más eficiente.
2. Uso de Dataiku DSS
La herramienta de análisis de datos proporciona una interfaz visual interactiva. Para que puedan construir, hacer clic, señalar o usar lenguajes como SQL.
3. Limitaciones de los sistemas de soporte de decisiones de almacenamiento de datos
Capacidad de visualización limitada; obstáculos de la interfaz de usuario: sobrecarga de código/conjuntos de datos; aún así, el código completo no se puede compilar fácilmente en un solo documento/cuaderno. debe integrarse con SPARK
Las herramientas anteriores son solo algunas de las herramientas utilizadas en el análisis de big data y no las enumeraré una por una. Clasifiquemos los usos de algunas herramientas:
1. Visualización frontal
Las herramientas frontales de código abierto para análisis de demostración incluyen JasperSoft, Pentaho, Spagobi, Openi, Birt, etc. .
Las herramientas de análisis empresarial utilizadas para el análisis de demostración incluyen Style Intelligence, RapidMiner Radoop, Cognos, bo, Microsoft powerbi, Oracle, microstrategy, qlikview y Tableau.
En China, existen BDP, Guo Yun Data (espejo de análisis de big data), Smart, FineBI, etc.
2.Almacén de datos
Teradata aster data, EMC Greenplum, HP Vertica, etc.
3. Data mart
También hay QlikView, Tableau, Style Intelligence, etc.
Por supuesto, existen muchos obstáculos en el aprendizaje del análisis de big data:
Lamento haber cambiado a una carrera como analista de big data ¿Es realista el análisis de big data en el aprendizaje de base cero? ¿La formación en análisis de big data es buena para el empleo? ¿Qué habilidades se necesitan para pasar al análisis de big data?