Análisis de datos de Douban Movies
Incluso con estas deficiencias, todavía quiero colgar, principalmente porque: 1. Como practicante de pandas y rastreadores (selenio + solicitud), siempre tengo que dejar algunas pruebas; 2. De hecho, es difícil encontrar una línea de lógica empresarial que respalde el análisis de las películas de Douban y, en general, utilice estadísticas descriptivas; Internet En comparación con otros análisis de datos de películas de Douban que se pueden encontrar, es más detallado y tiene un buen efecto de visualización;
Este informe tiene como objetivo analizar los datos de películas de Douban Movie de 1990 a 2020. Primero, rastreó 51.375 datos de películas escribiendo un rastreador web Python. Los objetos recopilados incluyen: título de la película, año, director, actores, género, país de producción, idioma, duración, calificación, número de comentarios, diferentes índices de calificación y direcciones de sitios web. Después de la deduplicación y limpieza, finalmente se obtuvieron 29033 datos de películas válidos. Según las calificaciones, la duración, la región y el género de las películas, describa la relación entre las calificaciones, la duración y el género, y cuente el número y las calificaciones de las películas en cada región. Luego se recopilan los datos de actores y directores y se proporciona una lista con la producción y los ratings más altos. Durante el análisis, también se encontró que el número de películas de este año ha aumentado gradualmente, pero los ratings han disminuido. Esto se debe principalmente al aumento de obras cinematográficas y televisivas nacionales de baja calidad este año.
Además, este informe también capturó (/) la taquilla de las películas nacionales estrenadas de 1995 a 2020, * * * recopiló 4071 datos, de los cuales 3484 eran válidos. Analiza además las tendencias cambiantes anuales de la taquilla de los cines nacionales, la relación entre la taquilla y los ratings, el número de personas, la duración y la región, así como la relación entre la taquilla y el tipo de película, y proporciona las clasificaciones de directores, actores. y películas con mayor taquilla.
Después de la limpieza y deduplicación, podemos ver que la longitud, la puntuación y el número de comentarios de 29033 datos tienen las siguientes características:
Como se muestra en la Figura 1(a)( b) Resulta que la duración de los datos de la película se concentra principalmente entre 90 y 120 minutos y disminuye paso a paso hacia los dos extremos. Los datos se dividen en corta (60-90 minutos), media (90-120 minutos) y y largo (65438+). 150 minutos), las proporciones de cada parte son 21,06%, 64,15%, 11,95% y 2,85% respectivamente.
Combinado con la Figura 2(a), podemos ver que las calificaciones de los datos de películas que recopilamos están principalmente entre 6,0 y 8,0, lo que muestra una tendencia a la baja hacia los dos polos. Aquí dividimos el rango según las puntuaciones: 2,0-4,0 significa mala reputación, 4,0-6,0 significa mala reputación, 6,0-7,0 significa reputación regular, 7,0-8,0 significa buena reputación y 8,0-650 significa buena reputación.
Las proporciones de estos cinco tipos de datos de películas son: 5,78%, 23,09%, 30,56%, 29,22%, 11,34%.
Luego, al refinar los datos de calificación cada año para su observación, podemos encontrar que la cantidad de películas en 30 años está correlacionada negativamente con la puntuación promedio anual, y la puntuación promedio anual muestra una tendencia general a la baja. En 2016, la puntuación media fue la más baja y el número de películas la más alta.
Al analizar más a fondo la proporción de datos de películas con diferentes calificaciones en cada año, podemos encontrar que las calificaciones de los últimos años son ×, (2,5), (5,10), (10,20) , (20,999) Se pueden encontrar estadísticas de agrupación de directores, 15009. Haciendo caso omiso de los actores invitados y de paso, los datos generalmente se ajustan a la regla 80/20, lo que significa que el 20% de las personas ocupan una gran cantidad de recursos de la industria.
Aquí podremos descubrir directores y actores de cine destacados según las calificaciones de sus películas, el número de críticas por película y el número de películas. Estos tres indicadores miden el nivel creativo, la popularidad y la productividad del director/actor respectivamente. Teniendo en cuenta que puede haber una pequeña cantidad de series de televisión/animaciones teatrales en el conjunto de datos de películas, y que la audiencia de series de televisión/animaciones teatrales es menor que la de las películas, pero las calificaciones son generalmente más altas que las de las películas, aquí basado en el número de comentarios y trabajos de cada película, primero se selecciona el director/animación teatral. Luego se clasifican los actores de acuerdo con las calificaciones de las películas para obtener el top 30, con los números 17 y 18.
Combinado con los 3353 datos de taquilla recopilados por la taquilla de películas (/) y haciendo coincidir los nombres de las películas con los datos de Douban, se obtuvo la información de las películas de China continental de 1995 a 2020, y el número de Se analizaron las películas chinas, las tendencias de taquilla, la relación de taquilla y las calificaciones, el número de críticas, la duración, la región y el tipo. Además, también se proporciona el desempeño de taquilla de diferentes directores y actores y la clasificación de taquilla de las películas.
Como se muestra en la Figura 19, los datos de taquilla nacional y el número de películas estrenadas aumentan año tras año. En 2020, solo se registraron los datos de la primera mitad del año y la taquilla y las cifras cayeron drásticamente debido a la epidemia. Esto demuestra que el mercado cinematográfico nacional se está expandiendo sin grandes acontecimientos.
Resumiendo los datos de la película por tipo y dibujando un diagrama de dispersión 21, podemos encontrar:
Extrae los nombres de los directores/actores, resume los campos de los directores/actores y calcula cada uno. director/La taquilla total de actores, calcule el puntaje promedio de las películas estrenadas y el número de películas dirigidas/participadas, y haga los 30 principales directores/actores con taquilla total, como se muestra en las Figuras 22 y 23, donde las etiquetas de directores/actores reflejan la clasificación de taquilla, específicamente la cantidad de películas estrenadas por cada director/actor, la puntuación promedio, la cantidad de personas que calificaron cada película y la cantidad de personas que calificaron cada película.
Finalmente, según el ranking de taquilla de películas, las 20 películas con mayor taquilla se muestran en la Tabla 7. Se puede ver que la mayoría de las películas en la lista son películas chinas, y aquellas con los números de índice 3, 10, 12, 14, 18 y 19 son películas estadounidenses. Esto también refleja que, además de las películas nacionales, Hollywood.
Este informe recopiló datos válidos sobre 29.033 sets de películas de Douban de 1990 a 2020, y analizó y evaluó las calificaciones, la duración, la región, el género, los actores, los directores, la taquilla y otra información de las películas de Douban. Las principales conclusiones son las siguientes: