Red de conocimiento informático - Problemas con los teléfonos móviles - Programación en Python para implementar estadísticas de frecuencia de palabras para una determinada columna de archivos csv

Programación en Python para implementar estadísticas de frecuencia de palabras para una determinada columna de archivos csv

importar re

importar colecciones

importar pandas como pd

desde sklearn.feature_extraction.text importar TfidfVectorizer, CountVectorizer

#Para evitar problemas, utilice la ruta completa para el nombre del archivo

data = pd.read_csv('XXX.csv')

trainheadlines = []

para fila en rango(0, len(data.index)):

trainheadlines.append(' '.join(str(x) para x en data.iloc[fila, m:n ]) )

#El m:n de arriba representa qué columna o columnas tomar.

advancedvectorizer = TfidfVectorizer(

min_df=0, max_df=1, max_features=20000, ngram_range=(1, 1))

advancedtrain = advancedvectorizer.fit_transform (titulares del tren)

imprimir(advancedtrain.shape)