Red de conocimiento informático - Material del sitio web - ¿Big Data requiere aprender a programar?

¿Big Data requiere aprender a programar?

Introducción:

Capítulo 1: Primera introducción a Hadoop

Capítulo 2: WordCount más eficiente

Capítulo 3: Poner Obtener los datos de otros lugares a Hadoop

Capítulo 4: Llevar los datos de Hadoop a otros lugares

Capítulo 5: Date prisa, mi SQL

Capítulo 6: Poligamia

Capítulo 7: Cada vez más tareas analíticas

Capítulo 8: Mis datos deben estar en tiempo real

Capítulo 9: Mis datos deben estar expuestos al exterior mundo

Capítulo 10: Aprendizaje automático asombroso

Los principiantes a menudo me preguntan en blogs y QQ si quieren entrar en la dirección del desarrollo de big data, qué tecnologías deberían aprender y qué. Cuál es la ruta de aprendizaje? Creo que big data es muy popular, con buenos empleos y salarios altos. Si está confundido y quiere desarrollarse en la dirección de big data por estas razones, está bien. Entonces me gustaría preguntarle cuál es su especialización y cuáles son sus intereses en computadoras/software. ¿Es usted especialista en informática y está interesado en sistemas operativos, hardware, redes y servidores? ¿Es usted un especialista en software y está interesado en el desarrollo, la programación y la codificación de software? También me estoy especializando en matemáticas y estadística, y estoy particularmente interesado en los datos y los números. .

De hecho, estas son las tres direcciones de desarrollo de big data que quiero contarles: construcción/optimización/operación y mantenimiento/monitoreo de plataformas, desarrollo/diseño/arquitectura de big data y análisis/minería de datos. . Por favor, no me pregunten cuál es más fácil, cuál tiene mejores perspectivas, cuál tiene más dinero.

Primero hablemos de las características 4V del big data:

Gran cantidad de datos, TB-gt

Muchos tipos de datos, texto estructurado y no estructurado; , registros, vídeos, imágenes, ubicaciones geográficas, etc.;

El valor comercial es alto, pero este valor debe extraerse más rápidamente mediante análisis de datos y aprendizaje automático basado en datos masivos;

La puntualidad del procesamiento es alta y los requisitos de procesamiento de datos masivos ya no se limitan a cálculos fuera de línea.

Hoy en día, para hacer frente a estas características de big data, existen cada vez más marcos de big data de código abierto y se están volviendo cada vez más fuertes. A continuación se muestran algunos de los más comunes:

Almacenamiento de archivos: Hadoop HDFS, Tachyon, KFS

Computación fuera de línea: Hadoop MapReduce, Spark

Transmisión, computación en tiempo real: Storm, Spark Streaming, S4, Heron

K-V, base de datos NOSQL: HBase, Redis, MongoDB

Gestión de recursos: YARN, Mesos

Recopilación de registros: Flume, Scribe, Logstash, Kibana

Sistema de mensajes: Kafka, StormMQ, ZeroMQ, RabbitMQ

Análisis de consultas: Hive, Impala, Pig, Presto, Phoenix, SparkSQL, Drill, Flink, Kylin, Druid

Servicio de coordinación distribuida: Zookeeper

Gestión y monitorización de clústeres: Ambari, Ganglia, Nagios, Cloudera Manager

Minería de datos, aprendizaje automático: Mahout, Spark MLLib

Sincronización de datos: Sqoop

Programación de tareas: Oozie

......

Es deslumbrante. Hay más de 30 tipos de ellas. Sin mencionar que son competentes, sé cómo. para usarlos todos, y supongo que no son muchos.

Personalmente, mi experiencia principal es en la segunda dirección (desarrollo/diseño/arquitectura), así que por favor escuche mis sugerencias.

Capítulo 1: Primera introducción a Hadoop

1.1 Aprenda Baidu y Google

No importa el problema que encuentre, intente buscar primero y resuélvalo usted mismo.

Google es la primera opción. Si no puedes acceder a él, utiliza Baidu.

1.2 Para materiales de referencia, se prefieren los documentos oficiales

Especialmente para principiantes, los documentos oficiales son siempre la primera opción.

Creo que la mayoría de las personas involucradas en este campo son personas educadas y su inglés es bueno. Si realmente no puedes soportarlo, consulta el primer paso.

1.3 Deje que Hadoop se ejecute primero

Hadoop puede considerarse como el creador del almacenamiento y la informática de big data. Ahora, la mayoría de los marcos de big data de código abierto dependen de Hadoop o son bien compatibles con él. .

Acerca de Hadoop, al menos debes comprender lo siguiente:

Hadoop 1.0, Hadoop 2.0

MapReduce, HDFS

NameNode, DataNode

JobTracker, TaskTracker

Yarn, ResourceManager, NodeManager

Construya Hadoop usted mismo; utilice el primer y segundo paso para ejecutarlo.

Se recomienda utilizar la línea de comando del paquete de instalación para instalar primero y no utilizar herramientas de administración para instalar.

Además: Hadoop 1.0 es suficiente para saberlo, ahora todos usamos Hadoop 2.0.

1.4 Intente usar Hadoop

Comando de operación de directorio HDFS;

Comandos para cargar y descargar archivos;

Enviar y ejecutar el programa de muestra MapReduce;

Abra la interfaz WEB de Hadoop, vea el estado de ejecución del trabajo y vea el trabajo en ejecución registro.

Sepa dónde está el registro del sistema Hadoop.

1.5 Debes entender sus principios

MapReduce: Cómo dividir y conquistar;

HDFS: ¿Dónde están los datos y qué es una copia?

¿Qué es Yarn y qué puede hacer?

¿Qué está haciendo NameNode?

¿Qué está haciendo ResourceManager?

1.6 Escriba uno usted mismo el programa MapReduce

Siga el ejemplo de WordCount y escriba su propio programa WordCount (también puede copiarlo).

Embálelo y envíelo a Hadoop para su ejecución.

¿No conoces Java? Tanto Shell como Python están disponibles y hay algo llamado Hadoop Streaming.

Si has completado los pasos anteriores con cuidado, felicidades, ya tienes un pie dentro.

Capítulo 2: Un WordCount más eficiente

2.1 Aprende algo de SQL

¿Conoces bases de datos? ¿Puedes escribir SQL?

Si no es así, aprenda algo de SQL.

2.2 Versión SQL de WordCount

En 1.6, ¿cuántas líneas de código tiene el programa WordCount que escribiste (o copiaste)?

Déjame mostrarte el mío:

SELECT palabra, COUNT(1) FROM wordcount GROUP BY word;

Este es el encanto de SQL, la programación lo necesita puede terminar docenas o incluso cientos de líneas de código con una sola oración; usar SQL para procesar y analizar datos en Hadoop es conveniente, eficiente, fácil de usar y es una tendencia. Ya sea informática fuera de línea o informática en tiempo real, cada vez más marcos de procesamiento de big data proporcionan activamente interfaces SQL.

2.3 SQL en Hadoop-Hive

¿Qué es Hive? La explicación oficial es:

El software de almacén de datos Apache Hive facilita la lectura, escritura y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido y se consultan mediante sintaxis SQL.

¿Por qué son los datos de Hive? ¿Sobre herramientas de almacén en lugar de herramientas de base de datos? Es posible que algunos amigos no conozcan el almacén de datos. El almacén de datos es un concepto lógico. La capa inferior utiliza una base de datos. Los datos en el almacén de datos tienen estas dos características: los datos históricos más completos (masivos) y los más estables. llamado estabilidad relativa, se refiere al hecho de que el almacén de datos es diferente de la base de datos del sistema empresarial. Una vez que los datos ingresan al almacén de datos, rara vez se actualizan o eliminan, y solo se consultan en grandes cantidades. . Hive también tiene estas dos características. Por lo tanto, Hive es más adecuado como herramienta de almacenamiento de datos para datos masivos que como herramienta de base de datos.

2.4 Instalar y configurar Hive

Consulte 1.1 y 1.2 para completar la instalación y configuración de Hive. Puede ingresar la línea de comando de Hive normalmente.

2.5 Intente usar Hive

Consulte 1.1 y 1.2 para crear la tabla de recuento de palabras en Hive y ejecute la instrucción SQL en 2.2.

Busque la tarea SQL que acaba de ejecutar en la interfaz WEB de Hadoop.

Compruebe si los resultados de la consulta SQL son consistentes con los resultados en MapReduce en 1.4.

2.6 ¿Cómo funciona Hive?

Obviamente está escrito en SQL, pero ¿por qué vemos tareas de MapReduce en la interfaz WEB de Hadoop?

2.7 Aprenda los comandos básicos de Hive

Crear y eliminar tablas

Cargar datos en tablas

Descargar datos de tablas de Hive; ;

Consulte 1.2 para obtener más información sobre la sintaxis y los comandos de Hive.

Si ha seguido cuidadosamente los procedimientos de los Capítulos 1 y 2 de "Escrito para principiantes en el desarrollo de Big Data", entonces ya debería tener las siguientes habilidades y conocimientos:

El diferencia entre 0 y Hadoop2.0;

El principio de MapReduce (sigue siendo la pregunta clásica, un archivo de 10G, dada una memoria de 1G, cómo usar un programa Java para contar las apariciones Las 10 palabras más frecuentes y su frecuencia);

El proceso de lectura y escritura de datos en HDFS; PONER datos en HDFS; Descargar datos de HDFS;

Puedo escribir programas MapReduce simples, si hay uno en ejecución; problema, sepa dónde consultar el registro;

Poder escribir SELECT, WHERE, GROUP BY y otras declaraciones SQL simples;

El proceso general de convertir Hive SQL en MapReduce;

p>

Declaraciones comunes en Hive: crear tablas, eliminar tablas, cargar datos en tablas, particionar, descargar datos de tablas a local;

A partir del aprendizaje anterior, ha aprendido es decir, HDFS es un marco de almacenamiento distribuido proporcionado por Hadoop. Se puede utilizar para almacenar datos masivos. MapReduce es un marco informático distribuido proporcionado por Hadoop. Se puede utilizar para contar y analizar datos masivos en HDFS en Hive. Hive Se proporciona una interfaz SQL. Los desarrolladores solo necesitan escribir declaraciones SQL simples y fáciles de usar. Hive es responsable de traducir SQL a MapReduce y enviarlo para su ejecución.

En este momento, su "plataforma de big data" se ve así:

Entonces la pregunta es, ¿cómo llevar datos masivos a HDFS?

Capítulo 3: Obtener datos de otros lugares para Hadoop

Esto también se puede llamar recopilación de datos, recopilar datos de varias fuentes de datos en Hadoop.

3.1 Comando PUT HDFS

Deberías haber usado esto antes.

El comando put también se usa comúnmente en entornos reales y generalmente se usa con lenguajes de secuencias de comandos como shell y python.

Se recomienda dominarlo.

3.2 API HDFS

HDFS proporciona una API para escribir datos. Utiliza un lenguaje de programación para escribir datos en HDFS. El comando put en sí también usa la API.

En entornos reales, generalmente rara vez se escriben programas que utilicen API para escribir datos en HDFS. Generalmente se utilizan métodos encapsulados por otros marcos. Por ejemplo: instrucción INSERT en Hive, saveAsTextfile en Spark, etc.

Se recomienda entender los principios y poder escribir demos.

3.3 Sqoop

Sqoop es un framework de código abierto utilizado principalmente para el intercambio de datos entre Hadoop/Hive y las bases de datos relacionales tradicionales Oracle/MySQL/SQLServer.

Al igual que Hive traduce SQL a MapReduce, Sqoop traduce los parámetros que usted especifica a MapReduce, los envía a Hadoop para su ejecución y completa el intercambio de datos entre Hadoop y otras bases de datos.

Descarga y configura Sqoop tú mismo (se recomienda usar Sqoop1 primero, Sqoop2 es más complicado).

Comprenda los parámetros y métodos de configuración comúnmente utilizados de Sqoop.

Utilice Sqoop para sincronizar datos de MySQL a HDFS

Utilice Sqoop para sincronizar datos de MySQL a la tabla Hive

PD: si decide usarlo; en la selección posterior Como herramienta de intercambio de datos, se recomienda dominar Sqoop de manera competente. De lo contrario, simplemente comprenda y pueda usar la demostración.

3.4 Flume

Flume es un marco de transmisión y recopilación de registros masivos distribuidos. Debido al "marco de recopilación y transmisión", no es adecuado para la recopilación y transmisión de datos de bases de datos relacionales. .

Flume puede recopilar registros de protocolos de red, sistemas de mensajes y sistemas de archivos en tiempo real y transferirlos a HDFS.

Por lo tanto, si su empresa tiene datos de estas fuentes de datos y necesita recopilación en tiempo real, debería considerar usar Flume.

Descarga y configura Flume.

Utilice Flume para monitorear un archivo que agrega datos continuamente y los transfiere a HDFS.

PD: la configuración y el uso de Flume son más complicados si no tiene suficiente. Interés y paciencia. Puedes saltarte Flume primero.

3.5 DataX de código abierto de Alibaba

La razón por la que presento esto es porque la herramienta que nuestra empresa utiliza actualmente para el intercambio de datos entre Hadoop y bases de datos relacionales se desarrolló previamente en base a DataX, que es muy bueno.

Puede consultar la publicación de mi blog "Herramienta de intercambio masivo de datos de fuentes de datos heterogéneas: descarga y uso de Taobao DataX".

DataX ahora es la versión 3.0 y admite muchas fuentes de datos.

También puedes hacer desarrollo secundario encima.

PD: Quienes estén interesados ​​pueden estudiarlo, utilizarlo y compararlo con Sqoop.

Si ha completado el estudio anterior y practica cuidadosamente, en este momento su "plataforma de big data" debería verse así:

Capítulo 4: Procesar los datos en Hadoop Ir a otra parte

El artículo anterior presentó cómo recopilar los datos de la fuente de datos en Hadoop. Una vez que los datos están en Hadoop, se pueden analizar utilizando Hive y MapReduce. Entonces la siguiente pregunta es, ¿cómo sincronizar los resultados analizados de Hadoop con otros sistemas y aplicaciones?

De hecho, el método aquí es básicamente el mismo que el del Capítulo 3.

4.1 Comando GET HDFS

OBTENER archivos en HDFS a local. Requiere competencia.

4.2 API HDFS

Igual que 3.2.

4.3 Sqoop

Igual que 3.3.

Usa Sqoop para completar Sincronizar archivos en HDFS con MySQL;

Utilice Sqoop para sincronizar datos en tablas de Hive con MySQL;

4.4 DataX

Igual que 3.5.

Si ha completado cuidadosamente el estudio y la práctica anteriores, en este momento su "plataforma de big data" debería verse así:

Si ha seguido las instrucciones para "Principiantes en el desarrollo de big data" " 2》El Capítulo 3 y el Capítulo 4 del proceso se han revisado cuidadosa y completamente, entonces ya debería tener las siguientes habilidades y puntos de conocimiento:

Saber cómo recopilar datos existentes en HDFS, incluida la recopilación sin conexión y recopilación en tiempo real;

Ya sabes que sqoop (o DataX) es una herramienta de intercambio de datos entre HDFS y otras fuentes de datos;

Ya sabes que flume se puede utilizar como Real -Recopilación de registros de tiempo.

A partir del estudio anterior, ya domina muchos conocimientos y habilidades sobre plataformas de big data. Puede crear un clúster de Hadoop, recopilar datos en Hadoop, usar Hive y MapReduce para analizar los datos y colocarlos. los resultados del análisis se sincronizan con otras fuentes de datos.

Surge la siguiente pregunta. A medida que Hive se usa cada vez más, encontrará mucha insatisfacción, especialmente la baja velocidad. En la mayoría de los casos, aunque la cantidad de datos que tengo es muy pequeña. Todavía necesita muchos datos. Solicite recursos e inicie MapReduce para su ejecución.

Capítulo 5: Date prisa, mi SQL

De hecho, todos han descubierto que el fondo de Hive usa MapReduce como motor de ejecución, lo cual es un poco lento.

Por lo tanto, hay cada vez más marcos SQL en Hadoop. Hasta donde yo sé, los marcos más utilizados en orden de popularidad son SparkSQL, Impala y Presto.

Estos tres. Los marcos se basan en media memoria o memoria completa y proporcionan una interfaz SQL para consultar y analizar datos rápidamente en Hadoop. Para una comparación de los tres, consulte 1.1.

Actualmente estamos usando SparkSQL. En cuanto a por qué usamos SparkSQL, las razones probablemente sean las siguientes:

También hacemos otros. cosas que usan Spark. No quiero presentar demasiados marcos;

Impala requiere demasiada memoria y no tiene demasiados recursos para implementar;

5.1 Acerca de Spark y SparkSQL

Qué es Spark, qué es SparkSQL.

Conceptos centrales y explicaciones terminológicas de Spark.

¿Cuál es la relación entre SparkSQL y Spark, y cuál es la relación entre SparkSQL y Hive?

¿Por qué SparkSQL se ejecuta más rápido que Hive?

5.2 Cómo implementar y ejecutar SparkSQL

¿Cuáles son los modos de implementación de Spark?

¿Cómo ejecutar SparkSQL en Yarn?

Utiliza SparkSQL para consultar tablas en Hive.

PD: Spark no es una tecnología que se pueda dominar en poco tiempo. Por lo tanto, se recomienda que después de comprender Spark, pueda comenzar con SparkSQL y proceder paso a paso.

Para obtener información sobre Spark y SparkSQL, consulte ?/archives/category/spark

Si ha completado cuidadosamente el estudio y la práctica anteriores, en este momento, su "big data plataforma" debería decir así:

Capítulo 6: Poligamia

Por favor, no se deje seducir por este nombre. De hecho, lo que quiero decir es la recopilación única y el consumo múltiple de datos.

En escenarios comerciales reales, especialmente para algunos registros de monitoreo, si desea comprender algunos indicadores de los registros en tiempo real (los cálculos en tiempo real se presentarán en capítulos posteriores), en este momento, es demasiado difícil de analizar desde HDFS. Aunque se recopila a través de Flume, Flume no puede transferir archivos a HDFS en intervalos cortos, lo que generará una gran cantidad de archivos pequeños.

Para satisfacer las necesidades de recopilación única y consumo múltiple de datos, quiero hablar aquí de Kafka.

6.1 Acerca de Kafka

¿Qué es Kafka?

Conceptos centrales y explicaciones terminológicas de Kafka.

6.2 Cómo implementar y usar Kafka

Utilice una sola máquina para implementar Kafka y ejecutar con éxito los ejemplos integrados de productor y consumidor.

Escriba y ejecute usted mismo programas de producción y consumo utilizando programas Java.

Integración de Flume y Kafka, use Flume para monitorear registros y enviar datos de registro a Kafka en tiempo real.

Si ha completado el estudio anterior y practica con atención, su "plataforma de big data" debería verse así en este momento:

En este momento, los datos recopilados mediante Flume no Vaya directamente a HDFS, pero primero a Kafka. Los datos en Kafka pueden ser consumidos por varios consumidores al mismo tiempo. Uno de los consumidores sincroniza los datos con HDFS.

Si ha seguido cuidadosamente los procedimientos de los Capítulos 5 y 6 de "Palabras para principiantes en el desarrollo de Big Data 3", entonces ya debería tener las siguientes habilidades y conocimientos:

Por qué Spark es más rápido que MapReduce.

Utilice SparkSQL en lugar de Hive para ejecutar SQL más rápido.

Utilice Kafka para recopilar datos una vez y consumirlos varias veces.

Puedes escribir programas para completar a los productores y consumidores de Kafka.

A partir de los estudios anteriores, ha dominado la mayoría de las habilidades en la recopilación de datos, el almacenamiento y cálculo de datos y el intercambio de datos en la plataforma de big data, y cada paso de esto requiere una tarea (programa) para completar. , existen ciertas dependencias entre cada tarea. Por ejemplo, la tarea de cálculo de datos debe esperar hasta que la tarea de recopilación de datos se complete con éxito antes de que la tarea de cálculo de datos pueda comenzar a ejecutarse. Si una tarea no se ejecuta, se debe enviar una alarma al personal de desarrollo, operación y mantenimiento, y se debe proporcionar un registro completo para facilitar la verificación de errores.

Capítulo 7: Cada vez más tareas de análisis

No solo las tareas de análisis, la recopilación de datos y el intercambio de datos también son tareas una por una. Algunas de estas tareas se activan de forma programada, mientras que otras deben depender de otras tareas para activarse. Cuando hay cientos o miles de tareas en la plataforma que deben mantenerse y ejecutarse, crontab por sí solo no es suficiente. En este momento, se necesita un sistema de programación y monitoreo para completar esta tarea. El sistema de programación y monitoreo es el sistema central de toda la plataforma de datos, similar a AppMaster, y es responsable de asignar y monitorear tareas.

7.1 Apache Oozie

1. ¿Qué es Oozie? ¿Cuales son las funciones?

2. ¿Qué tipos de tareas (programas) puede programar Oozie?

3. ¿Qué métodos de activación de tareas puede admitir Oozie?

4. Instalar y configurar Oozie.

Capítulo 8: Mis datos deben ser en tiempo real

Al presentar Kafka en el Capítulo 6, mencionamos algunos escenarios comerciales que requieren indicadores en tiempo real, básicamente pueden ser en tiempo real. Dividido en tiempo real absoluto y tiempo real preciso, los requisitos de retardo absoluto en tiempo real generalmente están en el nivel de milisegundos y los requisitos de retardo en tiempo cuasi real generalmente están en el nivel de segundos o minutos. Para escenarios comerciales que requieren tiempo real absoluto, Storm se usa más comúnmente. Para otros escenarios comerciales en tiempo casi real, puede ser Storm o Spark Streaming. Por supuesto, si es posible, también puedes escribir tu propio programa para hacerlo.

8.1 Tormenta

1. ¿Qué es Tormenta? ¿Cuáles son los posibles escenarios de aplicación?

2. ¿De qué componentes principales se compone Storm y qué funciones desempeña cada uno?

3. Instalación y despliegue sencillos de Storm.

4. Escriba su propio programa de demostración y utilice Storm para completar cálculos de flujo de datos en tiempo real.

8.2 Spark Streaming

1. ¿Qué es Spark Streaming y cuál es su relación con Spark?

2. Comparando Spark Streaming y Storm, ¿cuáles son las ventajas y desventajas de cada uno?

3. Utilice Kafka Spark Streaming para completar el programa de demostración para realizar cálculos en tiempo real.

Si ha completado cuidadosamente el estudio y la práctica anteriores, su "plataforma de big data" debería verse así:

En este punto, la arquitectura subyacente de su plataforma de big data ha sido Ha tomado forma, incluida la recopilación de datos, el almacenamiento y la computación de datos (fuera de línea y en tiempo real), la sincronización de datos, la programación de tareas y el monitoreo. Ahora es el momento de considerar cómo proporcionar mejor datos al mundo exterior.

Capítulo 9: Mis datos necesitan estar expuestos al mundo exterior

Generalmente brindando acceso a datos al mundo exterior (negocios), incluyendo generalmente los siguientes aspectos:

Sin conexión: por ejemplo, todos los días Proporcione los datos del día anterior a la fuente de datos especificada (DB, ARCHIVO, FTP), etc. Se pueden utilizar herramientas de intercambio de datos fuera de línea como Sqoop y DataX para proporcionar datos fuera de línea.

Tiempo real: por ejemplo, el sistema de recomendación de un sitio web en línea necesita obtener datos de recomendación para los usuarios de la plataforma de datos en tiempo real, lo que requiere una latencia muy baja (dentro de 50 milisegundos).

Según los requisitos de latencia y las necesidades de consulta de datos en tiempo real, las posibles soluciones incluyen: HBase, Redis, MongoDB, ElasticSearch, etc.

Análisis OLAP: además de requerir que el modelo de datos subyacente esté relativamente estandarizado, OLAP también requiere velocidades de respuesta de consultas cada vez mayores. Las posibles soluciones incluyen: Impala, Presto, SparkSQL y Kylin. Si su modelo de datos es relativamente grande, Kylin es la mejor opción.

Consulta ad hoc: los datos de la consulta ad hoc son relativamente aleatorios y generalmente es difícil establecer un modelo de datos general. Por lo tanto, las posibles soluciones incluyen: Impala, Presto y SparkSQL.

Con tantos marcos y soluciones relativamente maduros, debe elegir el correcto en función de sus propias necesidades comerciales y la arquitectura técnica de la plataforma de datos. Sólo hay un principio: cuanto más sencillo y estable, mejor.

Si domina bien cómo proporcionar datos a partes externas (empresas), entonces su "plataforma de big data" debería verse así:

Capítulo 10: Aprendizaje automático impresionante y alto en Internet

Como profano, sólo puedo dar una breve introducción a este tema. Me da mucha vergüenza haberme graduado con especialización en matemáticas y lamento no haber estudiado bien matemáticas en ese momento.

En nuestro negocio, existen aproximadamente tres tipos de problemas que pueden resolverse mediante el aprendizaje automático:

Problemas de clasificación: incluidas la clasificación doble y la clasificación múltiple, la clasificación doble es la solución El problema de la predicción es como predecir si un correo electrónico es spam; la clasificación múltiple resuelve el problema de clasificación del texto: clasifica aproximadamente a los usuarios según las palabras clave que han buscado;

Problema de recomendación: haga recomendaciones relevantes basadas en el historial de navegación y el comportamiento de clics del usuario.

La mayoría de industrias utilizan el aprendizaje automático para resolver este tipo de problemas