Red de conocimiento informático - Problemas con los teléfonos móviles - Python dibuja hermosas imágenes de nubes de palabras

Python dibuja hermosas imágenes de nubes de palabras

La nube de palabras es una herramienta de visualización comúnmente utilizada en el análisis de datos. Una nube de palabras, también conocida como nube de texto, es una representación visual de las palabras clave que aparecen con más frecuencia en el texto. Cuantas más palabras aparecen, más prominentes son en la nube de palabras. La nube de palabras filtra mucha información de texto de baja frecuencia y baja calidad para que puedas comprender el contenido del texto de un vistazo.

¿Por ejemplo? En la imagen de arriba, se puede ver de un vistazo que definitivamente se trata de noticias de la Agencia de Noticias Xinhua.

Entonces, ¿cuáles son los pasos principales para generar una nube de palabras? Aquí se explica cómo hacerlo en tres pasos usando Python:

Primero, instale jieba, segmentación de palabras chinas.

Para texto en inglés, word_cloud puede generar nubes de palabras directamente desde la fuente del texto. Sin embargo, el soporte de word_cloud para el chino no es sólido, por lo que primero debe usar jieba para dividir el texto chino en palabras y luego generar una nube de palabras. Por ejemplo:

jieba.cut: este método acepta tres parámetros de entrada, la oración es la cadena que debe dividirse; cut_all se usa para controlar si se usa el modo completo; para utilizar el modelo HMM.

jieba.cut_for_search: este método acepta dos parámetros, a saber, la cadena que debe dividirse en oraciones y si se debe utilizar el modelo HMM. Este método es adecuado para que los motores de búsqueda establezcan índices invertidos de palabras y la granularidad es relativamente fina.

jieba.analyse.textrank utiliza el algoritmo TextRank para extraer palabras clave de oraciones.

Luego instale la biblioteca de nube de palabras wordcloud.

Si muestra éxito después de ejecutar el comando anterior, felicidades, la instalación fue exitosa.

Encontré la rueda de construcción fallida por error de nube de palabras. Entonces, primero instalé xcode-select y luego wordcloud (no es necesario instalar Xcode).

La biblioteca de wordcloud trata las nubes de palabras como objetos de WordCloud. wordcloud.WordCloud () representa una nube de palabras correspondiente a un fragmento de texto. Puede dibujar una nube de palabras según parámetros como la frecuencia de aparición de palabras en el texto y dibujar la forma, el tamaño y el color de la nube de palabras. .

1. Primero importe datos de texto y realice un procesamiento de texto simple

2. Segmentación de palabras

3. Establezca máscara

Nota:

1. La fuente predeterminada no admite chino. Si necesita mostrar chino, debe configurar la fuente china; de lo contrario, aparecerán caracteres confusos.

2. Después de configurar la máscara, las partes que no son blancas de la imagen se completarán automáticamente y cuanto más clara sea la imagen, más rápido se ejecutará.

Entre ellas, WordCloud es el objeto más importante de WordCloud. Los parámetros principales se introducen de la siguiente manera:

El efecto es el siguiente:

El resumen anterior es la segmentación de palabras de todo el contenido de. el artículo y el resultado son todas las palabras, pero muchas veces tenemos más necesidades. Por ejemplo:

1. Sólo las primeras 100 palabras clave son suficientes.

2. No se requieren palabras con colores brillantes y deben ser del mismo color que la imagen de la máscara.

100 palabras clave, utilizamos el algoritmo TextRank para extraer palabras clave de oraciones durante la segmentación de palabras.

El color de la máscara se puede configurar configurando la propiedad color_func de WordCloud.

El resultado final es el siguiente: