Programación en Python para implementar estadísticas de frecuencia de palabras para una determinada columna de archivos csv
importar re
importar colecciones
importar pandas como pd
desde sklearn.feature_extraction.text importar TfidfVectorizer, CountVectorizer
#Para evitar problemas, utilice la ruta completa para el nombre del archivo
data = pd.read_csv('XXX.csv')
trainheadlines = []
para fila en rango(0, len(data.index)):
trainheadlines.append(' '.join(str(x) para x en data.iloc[fila, m:n ]) )
#El m:n de arriba representa qué columna o columnas tomar.
advancedvectorizer = TfidfVectorizer(
min_df=0, max_df=1, max_features=20000, ngram_range=(1, 1))
advancedtrain = advancedvectorizer.fit_transform (titulares del tren)
imprimir(advancedtrain.shape)