Pensamiento de datos
Internet también ha madurado y se está construyendo el Internet de las Cosas.
Todo el mundo produce datos, pero sólo unas pocas personas tienen la capacidad de jugar con ellos.
Con los datos, la gente de la industria ha tomado la iniciativa de abrir una perspectiva profética, ¡pero ni siquiera podemos tocarla!
Desde publicidad precisa hasta predecir e influir en las elecciones presidenciales de EE. UU., ¿por qué los datos son tan mágicos?
I. El valor de los datos ordinarios
1. El valor de los datos
¿Qué son los datos?
Cualquier cosa que pueda ser. registrados electrónicamente Todo son datos.
Esto no se limita a números, sino que también incluye contenido grabado electrónicamente, como sonidos de entrada de voz, fotografías tomadas con cámaras digitales y vídeos grabados con teléfonos móviles. Esta definición puede parecer estrecha, pero nos ayuda a comprender mejor la naturaleza cambiante de la industria de los datos y a desarrollar una visión de la era de los datos.
b. ¿Cuál es el propósito de los datos?
El valor de los datos para el individuo debe estar relacionado con las necesidades centrales de su negocio. Sólo proponiendo claramente el valor comercial de los datos podrá ser más fácil para los clientes pagar por los datos, para que las empresas de datos generen ingresos y para que la industria de los datos no sea tan caótica. Entonces, ¿cuál es el valor de los datos?
Podemos analizar este problema desde tres aspectos:
Ingresos. El más típico es la publicidad de búsqueda paga de Baidu, que genera una gran ola de tráfico a los anunciantes a través de un análisis en profundidad y una coincidencia precisa de los datos de búsqueda de los usuarios. El crecimiento de los ingresos que genera es el valor de los datos.
Gasto. Basándose en la información capturada por la tecnología IoT, el fabricante de televisores se dio cuenta de que solo un usuario de un determinado modelo de televisor seguía usando la antigua interfaz de vídeo VGA. Entonces decidieron eliminar esta interfaz, una decisión que le ahorró a la empresa cientos de millones de dólares al año. Aquí es donde reside el valor del análisis de datos.
Riesgo. Muchos bancos comerciales tienen sistemas de solicitud en línea y los riesgos suelen ser mayores que los de la firma fuera de línea. El análisis de datos puede ayudarles a distinguir con mayor precisión qué solicitantes en línea son buenos y cuáles son malos. Este es el valor indirecto que los datos aportan a las empresas en forma de riesgo empresarial reducido.
2. ¿Qué es el pensamiento de datos?
Para explicar el concepto más importante de este libro: el pensamiento de datos, debemos introducir el término estadístico análisis de regresión, que es un método para determinar dos o un método de relaciones cuantitativas entre múltiples variables interdependientes.
Para explicar el concepto más importante de este libro, el pensamiento de datos, es necesario introducir el término estadístico análisis de regresión, que es un análisis estadístico que determina la relación cuantitativa interdependiente entre dos o más variables. método.
Hay un viejo dicho: "Usa el Dao para controlar la técnica": "Usa el Dao para controlar la técnica y utiliza la técnica para controlar el Dao". En el nivel de "Tao", el análisis de regresión es una forma de hacerlo. De esta manera, bajo la guía, podemos definir "problema empresarial" como "datos que se pueden analizar". En el nivel "técnico", el análisis de regresión es una herramienta de análisis de datos que se puede utilizar. presentado en el último capítulo de esta interpretación. /p>
¿Qué tipo de problemas pueden considerarse problemas que pueden analizarse mediante datos? Necesita encontrar dos tipos de variables:
Variable dependiente Y. : una variable que cambia debido a los cambios de otras personas, también es el atractivo central de la empresa
Variable independiente X: la variable relevante utilizada para explicar la variable dependiente Y. En términos sencillos, cambios en el. variable independiente > Ejemplo
Supongamos que el Sr. A le pide prestados 10.000 yuanes. Primero puede analizar el comportamiento habitual del Sr. A y luego considerar si su relación es lo suficientemente fuerte, si ha firmado un pagaré, Sr. La situación familiar de A, etc., y luego calcule la posibilidad de que el Sr. A pague el dinero. Aquí, la posibilidad de que el Sr. A pague el dinero es la variable dependiente Y, y la persona, la relación, el pagaré y la situación familiar son todos; variables independientes X.
El pensamiento de datos consiste en definir "problemas comerciales" como "problemas que pueden analizarse mediante datos". El método específico es ubicar con precisión las necesidades comerciales centrales (variable dependiente Y) entre los problemas comerciales complicados y encontrarlas. los principales factores que influyen Factores relacionados con la demanda (variable independiente X), y luego utilizar varias herramientas de análisis de datos para futuras investigaciones.
En el próximo capítulo, nos centraremos en la pregunta: ¿Por qué es tan importante tener una mentalidad de datos?
En segundo lugar, ¿qué es exactamente big data?
Si no se comprende el análisis de datos, es fácil mitificar el big data y pensar que tiene algún poder mágico. De hecho, los big data no son tan misteriosos. Están indisolublemente ligados a las estadísticas con las que muchas personas han entrado en contacto.
1. La relación entre big data y estadística
En este episodio, el profesor Wang Hansheng mencionó que la relación entre big data y estadística tiene al menos dos aspectos:
a. El núcleo de las estadísticas es el análisis y modelado de datos. El modelado representa la incertidumbre de los negocios, lo que hace una gran contribución al big data.
b. Los big data no pueden sustituir al muestreo. Al contrario, cuanto más grandes son los datos, más importante es el muestreo.
2. ¿Qué tan preciso es el big data?
"Las predicciones inexactas son la norma, las predicciones precisas son anormales". Las palabras del profesor Wang desacreditaron las buenas expectativas de muchas personas en materia de predicciones.
¿Por qué desesperarse por la precisión? Esa es la naturaleza de la ciencia. La investigación estadística incluye una gran cantidad de correlaciones, de las cuales sólo unas pocas son relaciones causales muy raras, pero la importancia de las relaciones causales sigue siendo insustituible.
Correlación: la interdependencia no determinista entre fenómenos objetivos. Por ejemplo: el gallo canta y sale el sol.
Causación: Relación entre un primer evento (causa) y un segundo evento (efecto), considerándose este último como resultado del evento anterior. Por ejemplo: presione el botón de encendido y la computadora se iluminará.
A menudo confundimos este par de conceptos. A veces, el evento A y el evento B no están relacionados en absoluto, pero como a menudo ocurren al mismo tiempo, se los considera supersticiosamente causales, lo que genera muchas bromas. .
Por lo tanto, aclarar los conceptos de correlación y causalidad no es sólo la clave para comprender el big data, sino también un paso clave en el cultivo de la alfabetización científica: ¡di no a la pseudociencia!
En tercer lugar, todo el mundo debería tener pensamiento de datos
El pensamiento de datos es una cualidad necesaria. Debido a que vivimos en la era de la información, estamos más o menos relacionados con los datos. Si no tenemos pensamiento con datos, seremos como personas que no entienden de economía y especulan con acciones, y fácilmente se nos cobrará impuestos sobre el coeficiente intelectual. !
1. Mejorar la eficiencia de la comunicación
En el trabajo, a menudo nos encontramos con situaciones como esta: los expertos en datos hablan un lenguaje técnico, mientras que los departamentos de demanda hablan de cuestiones comerciales (incluidos los datos que se pueden analizar y no analizado), la comunicación entre las dos partes siempre es difícil de desarrollarse sin problemas.
Para resolver este problema, los profesionales no solo necesitan deshacerse de la maldición de su propio conocimiento, sino que también exigen que los departamentos superen su miedo a los datos y también deben cultivar el pensamiento de datos desde arriba. hasta el fondo dentro de la empresa. Los tomadores de decisiones deben comprender qué es relevante para los datos y los departamentos de requisitos deben poder articular sus requisitos básicos.
En este sentido, el Sr. Fan describió vívidamente el pensamiento de datos como "puedes pedir la carne en la olla abriendo la boca".
¡Esto puede mejorar enormemente la eficiencia de la comunicación y maximizar el valor del análisis de datos!
2. Captar oportunidades de negocio
Por otro lado, el pensamiento de datos también puede ser muy útil para los emprendedores, especialmente en startups que están estrechamente relacionadas con los datos. Tener pensamiento de datos puede ayudar a los emprendedores a aprovechar oportunidades de negocio, pero requiere los siguientes tres pasos:
¿Existen datos que puedan ayudarme en mi dirección empresarial?
b. Si los datos son importantes, aclarar la variable dependiente Y y la variable independiente X en el negocio.
c. A nivel estratégico, garantizar que se proporcionen y acumulen Y y X de alta calidad a largo plazo.
3. El pensamiento de datos en la vida
Si una persona no es un emprendedor y los problemas comerciales involucrados no tienen nada que ver con el análisis de datos, entonces ¿de qué sirve cultivar el pensamiento de datos? De hecho, el pensamiento con datos puede inspirarte sobre la mayoría de las pequeñas cosas de la vida. ¿La clave está en cómo lo utilizas?
En primer lugar, cultivar el pensamiento de datos le ayudará a desarrollar hábitos de pensamiento específicos: ¿Cuál es el propósito del análisis? ¿Cuáles son las necesidades básicas? ¿Cuál es la variable dependiente Y?
En segundo lugar, una vez que el propósito está claro, puedes centrarte en la variable independiente X relevante sin caer en la confusión del "énfasis en todas partes".
Finalmente, puedes probar el análisis más simple, sin mencionar el modelado profesional, al menos para distinguir correlación y causalidad.
4. Múltiples métodos de análisis de datos
Después de leer esto, ¿ya ha desarrollado un gran interés en el análisis de datos? Este libro también presenta varias herramientas de análisis de datos de uso común. Si está interesado, puede estudiarlas detenidamente y luego intentar utilizarlas para resolver problemas analizables de datos.
1. Análisis de regresión
A nivel "técnico", el análisis de regresión consiste en varios modelos estadísticos. Hay cinco tipos principales: regresión lineal, regresión 0-1, regresión ordinal, regresión de conteo y regresión de supervivencia.
La regresión lineal, más estrictamente hablando, la regresión lineal ordinaria, se caracteriza por el hecho de que la variable dependiente Y debe ser datos continuos, mientras que los requisitos para la variable explicativa X no son altos. En el mundo de los datos, la regresión lineal tiene aplicaciones en la inversión en acciones, el valor de vida del cliente, la atención médica y más.
Una regresión 0-1 es un modelo de regresión en el que la variable dependiente Y es 0-1 (sólo dos valores posibles). Por ejemplo, el género es sólo "masculino" o "femenino". La decisión de compra es sólo "comprar" o "no comprar". Los diagnósticos de cáncer son sólo "con cáncer" o "sin cáncer". La regresión 0-1 se puede aplicar al crédito en línea, recomendaciones personalizadas, recomendaciones de amigos sociales, etc.
Por otro lado, se puede aplicar a recomendaciones personalizadas, recomendaciones de amigos sociales, etc.
La regresión ordinal es un modelo de regresión en el que la variable dependiente Y es ordinal (con respecto al orden de los datos). Por ejemplo, ahora pedimos a todos los amantes de los libros que califiquen la presencia del autor en este número: 1 significa que les gustó mucho, 2 significa que les gustó algo, 3 significa regular, 4 significa que no les gustó un poco y 5 significa que no les gustó mucho. Este es un dato ordinal. Los escenarios de aplicación comunes para la regresión secuencial incluyen: calificaciones de películas (de 1 a 5 estrellas); calificaciones de satisfacción de productos de comercio electrónico (de 1 a 5 estrellas), etc.
Contando la regresión. Si la variable dependiente Y son datos de recuento (enteros no negativos), entonces el modelo de análisis de regresión correspondiente es la regresión de recuento. La regresión de conteo se usa a menudo en: modelos RFM en la gestión de relaciones con el cliente, es decir, el número de visitas de clientes dentro de un cierto período de tiempo, el número de hijos que una pareja elige tener en el estudio de la política de dos hijos, etc.
La regresión de supervivencia es la abreviatura de regresión de datos de supervivencia, es decir, un modelo de regresión en el que la variable dependiente Y son datos de supervivencia (que describen un fenómeno o cuánto tiempo sobrevive un individuo), como la esperanza de vida de los humanos. , la vida útil de los productos electrónicos o cuánto dura una startup.
2. Visualización de datos
El método más básico de visualización de datos son los gráficos estadísticos. Los buenos gráficos estadísticos deben cumplir cuatro estándares: precisos, eficaces, concisos y bonitos. Los gráficos estadísticos comunes incluyen: gráficos de barras, gráficos de barras apiladas, gráficos circulares, histogramas, gráficos de líneas, diagramas de dispersión, gráficos de cajas y líneas, gráficos de tallo y hojas, etc.
3. Aprendizaje automático
El aprendizaje automático representa una gran clase de métodos excelentes para analizar modelos de datos y es un curso obligatorio para los ratones de biblioteca que aspiran a convertirse en científicos de datos. Los principales métodos que cubre son: Bayes ordinario, árboles de decisión (incluidos bosques aleatorios), redes neuronales (incluido el aprendizaje profundo) y agrupación de K-medias.
4. Datos no estructurados
Si los datos están estructurados o no estructurados es un concepto relativo y subjetivo. Por supuesto, también hay algunos conocimientos avanzados. Los datos no estructurados reconocidos incluyen texto chino, estructura de datos, imágenes, etc.
Análisis de casos
Los datos de texto no estructurados no significa que no podamos realizar análisis de datos sobre ellos. Tomemos como ejemplo "Eternal Dragon Sword". ¿A quién ama más Zhang Wuji, Zhao Min, Zhou Zhiruo, Yin Li o Xiao Zhao? ¡Este libro utiliza métodos de análisis de datos para obtener la respuesta!
El primer paso es extraer los personajes principales y sus títulos de la novela. El segundo paso es determinar la unidad de análisis, aquí se utiliza como unidad el segmento natural. Entonces, ¿cómo se puede definir la pregunta de a quién ama Zhang Wuji como una pregunta que puede analizarse mediante datos? Este libro analiza a los personajes desde diferentes perspectivas como la frecuencia de aparición, el tiempo de aparición y el grado de intimidad. A continuación se presenta una breve introducción al análisis de intimidad más importante, que se caracteriza por la cantidad de veces que ellos y Zhang Wuji aparecen en el mismo segmento natural (al mismo tiempo):
El llamado "it" "Se necesita tiempo para ver los corazones de las personas", el llamado "se necesita tiempo para ver el amor verdadero". Desde una perspectiva lateral, Zhang Wuji tiene la mayor posibilidad de tener intimidad con Zhao Min, y es más probable que se enamore. con Zhao Min.
Nota: Para obtener detalles sobre este caso, siga la cuenta pública de WeChat CluBear (ID: CluBear).
Conclusión
Este es un libro que puede mejorar tu cognición. No te dará demasiadas metodologías ni hará que tu vida cambie de inmediato, incluso si lo estás escuchando. Se siente un poco agotador al leer. Sin embargo, de vez en cuando, salimos de nuestra zona de confort y tratamos de comprender cuestiones científicas que antes no nos atrevíamos a tocar, y luego nos sorprendemos gratamente: "¡Oh! ¡Eso es todo!".
Acerca del autor
Wang Hansheng
Profesor del Departamento de Estadística Empresarial y Econometría, Escuela de Administración de Guanghua, Universidad de Pekín, Director de Investigación de Inteligencia Empresarial Centro de la Universidad de Pekín, cuenta oficial de WeChat "Fundador del Bear Club. Miembro de la Asociación Estadounidense de Estadística (2014), ganador del Fondo Nacional para Jóvenes Destacados (2016), Revista de la Asociación Estadounidense de Estadística (JASA), Revista de Estadísticas Económicas y Empresariales (JBES) y Revista de la Sociedad Estadística Panchina (PCSA) ), editor en jefe adjunto de muchas revistas académicas internacionales como "Science China: Mathematics" (SCIENCE CHINA: MATHEMATICS).
Interpretación de la esencia
La siguiente es la interpretación de la esencia del libro "Pensar con datos" para que los amigos del libro lo estudien y lo consulten. Puede compartirlo y no usarlo. fines comerciales sin permiso.
Contenidos
1. Valor de datos simple
2. Qué es big data
3. Lo que todo el mundo debería tener Data Thinking p>
4. Varios métodos de análisis de datos
Texto
El potente motor de un automóvil seguirá sin llegar a su destino si se encuentra con un conductor confundido. Lo mismo ocurre con los big data, si no existe un pensamiento basado en datos que convierta los problemas empresariales en problemas analizables con datos, no importa cuán míticos sean los big data, no podrán crear valor comercial.
El big data es muy popular, pero hay muy pocas personas que realmente lo saben. El profesor Wang Hansheng es uno de ellos. En el ruidoso contexto de los nuevos medios, el profesor Wang ha encontrado un nuevo enfoque, con un temperamento académico sincero y buscador de la verdad, para ayudarnos a desarrollar el pensamiento de datos en el trabajo y la vida.