Red de conocimiento informático - Material del sitio web - Tres roles en la minería de big data

Tres roles en la minería de big data

Tres roles en Big Data Mining_Examen de analista de datos

Soy nuevo en la minería de datos y el aprendizaje automático. Recién comencé a ponerme en contacto con ellos en Amazon en julio del año pasado, y es así. Fue porque el trabajo requiere contacto pasivo y nunca antes había estado expuesto a él. Lo que hago está relacionado con la previsión de la demanda y el aprendizaje automático. Más tarde, después de llegar a Taobao, trabajé activamente en la extracción de datos relacionados con las direcciones de los usuarios durante varios meses por interés y obtuve algunos conocimientos superficiales. De todos modos, los consejos y la discusión son bienvenidos.

Además, ten en cuenta que el título de este artículo imita la serie de televisión estadounidense "Juego de Tronos: Canción de Hielo y Fuego". En el mundo de los datos, hemos visto muchos casos asombrosos, poderosos e interesantes. Sin embargo, los datos son como un trono, que simboliza una especie de poder y conquista, pero el viaje para llegar allí es igualmente aterrador.

Tres roles en la minería de datos

Mientras trabajaba en aprendizaje automático en Amazon, noté los tres roles que desempeña Amazon con los datos.

Analizador de Datos: Analista de datos. Este tipo de persona analiza principalmente datos, encuentra algunas reglas a partir de los datos y encuentra datos de entrenamiento para diferentes escenarios para el modelo de datos. Además, estas personas también son las que limpian algunos datos sucios.

Científico Investigador: Científico investigador. Esta función es principalmente establecer modelos de datos basados ​​en diferentes necesidades. En broma se llaman a sí mismos una especie extraña que no se acerca a los seres humanos, como Sheldon en "The Big Bang Theory". Estas personas básicamente juegan a la ciencia de datos

Software Developer: Ingeniero de desarrollo de software. El objetivo principal es implementar el modelo de datos establecido por Scientist y entregárselo a Data Analyzer para que juegue con él. Estas personas suelen comprender mejor varios algoritmos de aprendizaje automático.

Creo que quienes hacen data mining o machine learning en otras empresas solo tienen estos tres tipos de trabajos, o estos tres tipos de personas, para mí

los más técnicos. Se elige a los científicos porque este tipo de persona decide el modelado de datos, la extracción de los vectores más significativos y la selección de diferentes métodos. No creo que puedas encontrar este tipo de personas en China.

El más difícil y agotador, pero también el más importante es el Analizador de datos, y su trabajo es también el más importante de los tres roles (nota: yo usé los tres más). Porque no importa cuán maravilloso sea su modelo o algoritmo, solo puede hacer un montón de trabajo basura con un montón de datos incorrectos. Como dice el refrán: ¡Basura entra, basura sale! Pero este trabajo es el más sucio y agotador, y también es el trabajo que hace que la gente tenga más probabilidades de alejarse de él.

El menos técnico es Software Developer. Hoy en día, muchos actores de datos en China creen que los algoritmos son los más importantes y muchos técnicos están estudiando algoritmos de aprendizaje automático. Incorrecto, lo más importante son las dos personas anteriores, uno es el analizador de datos que trabaja duro para lavar los datos y el otro es el científico que realmente comprende el modelado de datos. Y los métodos como K-Means, K Nearest Neighbor u otros bayesianos, regresión, árbol de decisión, bosque aleatorio, etc. son todos maduros y no son inteligencia artificial, para decirlo sin rodeos, estos algoritmos están en el aprendizaje automático. En la minería, parece que algoritmos como Quick Sort básicamente no tienen contenido técnico en el diseño de software. Por supuesto, no estoy diciendo que los algoritmos no sean importantes, solo quiero decir que estos algoritmos son los menos importantes en todo el procesamiento de datos.

Calidad de los datos

La palabra de moda actual: big data es bastante engañosa. En mi opinión, los datos no se dividen en grandes o pequeños, solo buenos o malos.

En el proceso de procesamiento de datos, lo primero que siento es la calidad de los datos.

Lo explicaré en varios casos a continuación:

Caso 1: Estándares de datos

En Amazon, todos los productos tienen un ID único llamado ASIN - Número de identificación único de Amazon, este ID se utiliza para identificar de forma única el producto (a partir del código de barras). En otras palabras, no importa cómo describas el producto, siempre que el ASIN sea el mismo, es exactamente el mismo producto.

De esta manera, a diferencia de Taobao, cuando buscas un iPhone, verás varios iPhone, algunos llamados "Value iPhone" y otros llamados "Apple iPhone". Algunos se llaman "Smartphone iPhone". ", algunos se llaman "iPhone blanco/negro"... Los comerciantes pretenden que estas diferentes descripciones del mismo producto atraigan a los usuarios. Pero hay dos problemas:

1) La experiencia de usuario no es buena. Para los consumidores, el modelo de negocio centrado en el producto ofrece una experiencia significativamente mejor que el modelo de negocio centrado en el comerciante.

2) Mientras no puedas comprender (identificar) correctamente los datos, cualquier algoritmo o modelo que sigas será inútil.

Así que, mientras juegues con los datos, descubrirás que si no se establecen los estándares de datos, serán inútiles. Los estándares de datos son el primer nivel de calidad de los datos. Sin estos elementos, no hay nada que hacer. El llamado estándar de datos, que identifica de forma única los datos, es solo el paso más básico. Lo que es más importante es abstraer el estándar de datos en un vector matemático, y no se puede extraer más adelante.

Entonces, verá que gran parte del trabajo en el lavado de datos consiste en fusionar y agregar datos desordenados, lo que implica establecer estándares de datos. El trabajo de la carne humana es aquí absolutamente indispensable. No es más que:

Las personas inteligentes definen los estándares antes de que se generen los datos y realizan el trabajo de limpieza de los datos cuando se generan.

La mayoría de las personas hacen esto después de generar y acumular datos en grandes cantidades.

Además, hablemos del ASIN de Amazon. Este asunto comenzó hace más de diez años. La información que vi en la intranet de Amazon no explicaba por qué se creó dicha identificación. No creo que se deba a que Amazon. tiene que sugerir una identificación de producto debido al descubrimiento de datos. Tal vez sea porque el modelo de negocio de Amazon está diseñado para estar "centrado en el producto". Hoy en día, todavía hay muchos, muchos problemas con este ASIN. ASIN no puede garantizar completamente que el producto sea el mismo. Un ASIN diferente no significa que el producto sea diferente. Sin embargo, los productos superiores al 90% están garantizados. Amazon tiene un equipo de categorías dedicado, en el que mucho personal empresarial trabaja arduamente para corregir los datos ASIN todos los días.

Caso 2: Exactitud de los datos

La dirección del usuario es otra cosa en la que me he involucrado en el análisis de datos. Todavía recuerdo la emoción de ver los datos de cientos de millones de direcciones de usuarios. Pero luego perdí la emoción. Debido a que la dirección la completa el propio usuario, existen muchos errores y no es fácil de hacer.

La primera es una dirección falsa/incorrecta, porque algunos comerciantes hacen trampa o los usuarios hacen pruebas. Entonces la dirección es incorrecta.

Por ejemplo, simplemente ingrese "Esta dirección no existe", "13243234asdfasdi" o algo similar. Este tipo de dirección puede ser reconocido por mi programa.

También hay algunos que son difíciles de identificar por mi programa. Por ejemplo: "Universe Road Earth Community" y similares. Pero esas direcciones pueden ser identificadas por humanos.

También hay algunos que ni siquiera pueden identificar a la persona, como por ejemplo: "Habitación 540, 5th Floor, China Southern Airlines Building, No. 23 East Fourth Ring Middle Road, Beijing". en absoluto.

La segunda es la dirección real, pero es difícil de procesar porque la escritura del usuario no es estándar, como por ejemplo:

Abreviaturas: "Jianguomenwai Street" y "Jianwai Street". , "Banco Industrial y Comercial de China" e "ICBC"...

Errores tipográficos: "Chaoyangmen", "Río Tonghui"...

Inversión: "Parque Chaoyang, Este Fourth Ring Middle Road" y "Chaoyang Park (cerca de East Fourth Ring Road)"...

Alias: algunas personas escriben el nombre de la comunidad del desarrollador "Dongheng International", mientras que otras escriben el nombre del lugar administrativo " Balizhuang" Dongli"...

Hay demasiados ejemplos de este tipo. Se puede ver que si los datos son inexactos, aumentará la dificultad de su procesamiento. Hay una muy buena metáfora: las personas que juegan con los datos son como excavar en busca de oro. Si el contenido de oro es alto, la extracción será menos difícil y los resultados serán más fáciles. Si el contenido de oro es bajo, la extracción será mayor. difícil y los resultados serán peores.

Arriba, mencioné dos casos para ilustrar:

1) No hay diferencia en el tamaño de los datos, solo datos con alto contenido de oro y datos con alto contenido de basura.

2) La limpieza de datos es un trabajo muy importante y también es un trabajo con mucha carga de trabajo humana.

Por lo tanto, lo mejor es completar este trabajo poco a poco cuando se generan los datos.

Hay un punto de vista: si la precisión de los datos es del 60%, ¡definitivamente los usuarios lo regañarán por lo que hace! Si la precisión de los datos es de alrededor de 80, los usuarios dirán: ¡nada mal! Solo cuando la precisión de los datos alcance el 90% los usuarios sentirán que es realmente asombroso. Pero el costo de pasar de 80 a 90 en precisión de datos es mucho mayor que el costo de pasar de 60 a 80. La mayoría de los equipos de minería de datos se detendrán en 70. Porque, a partir de ahora, éste será un trabajo muy agotador.

Escenarios empresariales de datos

Me pregunto cuántos equipos de minería de datos realmente se dan cuenta de la importante relación entre los escenarios empresariales y la minería de datos. Necesitamos saber que es simplemente imposible crear un modelo de análisis y extracción de datos que pueda satisfacer a todas las empresas.

Recomendar vídeos musicales es completamente diferente a recomendar productos en el comercio electrónico. En el comercio electrónico, siempre que compres algo y no lo devuelvas, existe una alta probabilidad de que pueda creer que te gusta esto. Entonces, en el caso de la música y los vídeos, no puedes decirle al usuario quién lo ha escuchado. canción o la vi después de ver este video, concluimos arbitrariamente que al usuario le gusta esta canción y este video. Por lo tanto, podemos ver que la dificultad de implementación del algoritmo de recomendación es completamente diferente en diferentes escenarios comerciales.

Hablando de algoritmos de recomendación, ¿eres como yo? A veces tienes la sensación de que las recomendaciones son un algoritmo que clasifica según diferentes dimensiones. Personalmente, creo que las recomendaciones son más complicadas en ciertos escenarios comerciales. Por ejemplo, hay dos tipos de recomendaciones (no basadas en la relación del usuario y basadas en la relación del artículo).

Una es una recomendación personalizada y la otra. El resultado es recomendar cosas populares. Esto puede ser bueno, pero puede ser algo que el usuario ya sepa. Por ejemplo, cuando llego a Beijing, quiero encontrar un restaurante y siempre me lo recomiendas. Quiero ir a algún lugar, y siempre me recomiendas el Palacio de Tiananmen y el Templo del Cielo (porque la mayoría de la gente viene a Beijing a comer pato asado, y es allí donde van a Tiananmen). ¿No sé ya todo esto? ¿Aún quieres que lo recomiendes? Además, los trolls suelen poder robar cosas personalizadas.

La otra es la recomendación personalizada, que requiere analizar las preferencias individuales del usuario. Lo bueno es que siempre me da lo que me gusta. Lo malo es que mis gustos pueden cambiar con la edad. el entorno, y siempre recomienda lo que se adapta al gusto del usuario, pero no puede ayudarlo a descubrir cosas nuevas. Por ejemplo, me gusta la comida picante, pero siempre me recomiendas la cocina de Sichuan y Hunan. Después de mucho tiempo, me sentiré molesto.

Las recomendaciones a veces no son votos democráticos, sino sugerencias de usuarios profesionales o jugadores experimentados; a veces las recomendaciones no son recomendaciones populares, sino recomendaciones nuevas y desconocidas para mí.

Puede ver que en diferentes escenarios comerciales y diferentes formas de productos, la jugabilidad puede ser completamente diferente.

Además, incluso para el mismo comercio electrónico, las formas comerciales de libros, teléfonos móviles y ropa son completamente diferentes. diferente no es lo mismo. Solía ​​hacer Previsión de la demanda (previsión de la demanda de los usuarios) en Amazon, prediciendo las necesidades futuras de los usuarios a través de datos históricos.

Para cosas como libros, teléfonos móviles y electrodomésticos, los productos llamados Hard Line en Amazon pueden considerarse "productos estándar" (pero no necesariamente), y las predicciones son relativamente precisas e incluso pueden predecirse. Requisitos de atributos de producto relevantes.

Pero para los productos llamados Soft Line, como la ropa, Amazon no ha podido predecirlo muy bien después de más de diez años de trabajo, porque este tipo de cosas está sujeta a demasiados factores que interfieren, como por ejemplo: expectativas de los usuarios Preferencias de color y estilo, si le queda bien, si le gusta a su cónyuge o a sus amigos... cosas como esta cambian con demasiada facilidad. Si mucha gente lo compra, no se venderá bien, por lo que no hay forma de hacerlo. predecirlo, y mucho menos Stock/Vender. El Gerente propuso "predecir ropa o zapatos de un determinado color de una determinada marca".

En cuanto a la previsión de la demanda, descubrí que las previsiones de las personas que han trabajado duro en esta industria durante mucho tiempo son las más precisas, y cualquier aprendizaje automático es solo una nube. El aprendizaje automático solo tiene sentido si se trata de miles de productos y categorías diferentes.

La minería de datos no es inteligencia artificial, ni mucho menos. No crea que la minería de datos puede hacer nada. Encontrar un escenario comercial y una forma de producto adecuados es más importante que cualquier otra cosa.

Resultados del análisis de datos

Veo muchas personas que juegan con big data. Básicamente, hacen estadísticas de datos y cuentan el rendimiento de datos de múltiples dimensiones diferentes. Las estadísticas más simples y comunes son cosas como las estadísticas de sitios web. Por ejemplo: qué es el PV, qué es la UV, de dónde viene, la distribución de los navegadores, los sistemas operativos, la geografía, los buscadores, etc., etc.

Una advertencia: no crea que las docenas de terabytes de registros que tiene al día son datos, y no crea que puede usar Hadoop/MapReduce para analizar los registros. minería. Así es. Para decirlo sin rodeos, lo que estás haciendo es solo trabajo estadístico. Esas pocas T de datos sin procesar básicamente no tienen sentido. Solo pueden llamarse registros, ni siquiera datos. Solo los datos que usted cuenta son significativos y pueden llamarse datos.

Cuando un usuario se enfrenta a los datos de su propia tienda online, por ejemplo: 5 personas realizan pedidos por cada 1.000 personas, el 65% de los visitantes son hombres, el 30% tienen entre 18 y 24 años, etc. Incluso diste el dato de que venciste a 40 comerciantes del mismo tipo. Como comerciante, cuando se enfrenta a estos datos, la mayoría de las personas no tienen idea de qué pueden hacer. ¿Deberíamos cambiar el sitio web para que sea más masculino o hacerlo más popular entre los jóvenes? Completamente perdido.

Si echas un vistazo, descubrirás que los resultados de muchos buenos análisis de datos parecen buenos, pero en realidad, ¿no tienes idea de qué hacer a continuación?

Entonces, creo que los resultados del análisis de datos no se tratan solo de presentar los datos, sino que lo que debería preocuparnos más es ¿qué se puede hacer con los datos? Si no sabe qué se puede hacer después de observar los resultados del análisis de datos, entonces el análisis de datos es un fracaso.

Resumen

Para resumir, las siguientes son las cosas más importantes que creo en minería de datos o aprendizaje automático:

1) La calidad de los datos. Dividido en estándares de datos y precisión de los datos. El ruido en los datos debe eliminarse tanto como sea posible. Para la calidad de los datos es indispensable una gran cantidad de trabajo humano.

2) Escenarios empresariales de datos. No podemos hacerlo en todos los escenarios, por lo que los escenarios comerciales y las formas de los productos son muy importantes. Personalmente, creo que cuanto más estrechos sean los escenarios comerciales, mejor.

3) Los resultados del análisis de datos deben ser comprensibles y permitir que las personas sepan qué hacer a continuación, en lugar de datos por datos.

Hay muchas personas involucradas en la minería de datos, pero no hay muchos casos exitosos (en comparación con la gran cantidad de intentos). Por ahora, parece que la tecnología de minería de datos actual es una transición. La tecnología aún se encuentra en la etapa exploratoria. Además, muchos equipos de minería de datos no son profesionales ni técnicos, y lo siento por el personal técnico...

Lo siento, solo di preguntas, no sugerencias, lo que también demuestra que hay muchas oportunidades en análisis de datos...

Finalmente, una cosa para mencionar es "problemas de privacidad personal en los datos". Esto parece ser como esa magia negra poco ética. Si quieres tener éxito, debes volverte oscuro. Sí, los datos son como un trono, que simboliza el poder y la conquista, pero el viaje para llegar allí es igualmente desalentador.

Lo anterior es el contenido relevante compartido por el editor sobre los tres roles en la minería de big data. Para obtener más información, puede seguir a Global Ivy para compartir más información seca.