¿Cómo se realiza el análisis de texto? ¿Se puede realmente utilizar para juzgar el uso que alguien hace de un escritor fantasma para su trabajo? pedir respuestas
Niels Liedholt seleccionó tres muestras de obras: "The Silent Don" (una obra sospechosa de ser un escritor fantasma), una obra de Kolyukov (algunos creen que es el autor de "El Don") y otra obra de Sholokhov. El propósito del análisis es ver qué distribución de longitud de oración es más cercana entre el río Don y los otros dos ríos. Es difícil encontrar diferencias entre números derivados estadísticamente:
Por lo tanto, el autor utiliza el método de probabilidad posterior bayesiana, es decir, con el apoyo de los datos dados, calcula la probabilidad de cada uno de los tres modelos. La fórmula bayesiana utilizada aquí tiene una probabilidad previa P(Mi) P(Mi) indica cuál de las otras dos obras está más cerca de Don sin ningún respaldo de datos. De acuerdo con el principio de equidad, tomamos la mitad aquí y finalmente podemos calcular que se acerca al trabajo del propio Sholokhov.
Pero hay algunos problemas con este método, es decir, esta probabilidad previa es algo muy subjetivo. Diferentes probabilidades previas pueden conducir a diferentes conclusiones finales (afortunadamente, no en este ejemplo), y las probabilidades previas las determina subjetivamente la persona que analiza los datos, por lo que puede resultar difícil para diferentes personas llegar a un consenso. En segundo lugar, no sabemos si todas las obras del mismo autor pueden “pasar” esta prueba. Es decir, incluso del mismo autor, diferentes obras pueden tener diferentes distribuciones de longitud de oraciones. Si se encuentran tales inconsistencias, los métodos estadísticos de distribución de la longitud de las oraciones no son lo suficientemente convincentes.
-
Durante la guerra chino-coreana, se utilizó el método de análisis de componentes principales de frecuencia funcional de palabras para analizar las obras de HH. Este método primero recopila una serie de trabajos y luego cuenta la frecuencia de las palabras funcionales en cada trabajo para obtener una matriz de frecuencia de palabras. La ventaja de utilizar palabras funcionales es que las palabras de contenido se ven muy afectadas por el contenido del artículo y pueden reflejar mejor los hábitos de escritura del autor.
Este método consiste en considerar cada obra como un punto en un espacio de alta dimensión, cada palabra funcional corresponde a una dimensión y luego observar la distancia entre puntos. Cuanto más nos acercamos, más cerca nos sentimos de "los hábitos de escritura de su autor". Sin embargo, las dimensiones altas no se pueden dibujar, por lo que se utiliza el análisis de componentes principales para convertir las dimensiones altas (26 dimensiones) en dos dimensiones y dibujarlas para compararlas.
Pero este enfoque también tiene problemas. Después de todo, este análisis utiliza frecuencia, no frecuencia. La frecuencia se verá muy afectada por el espacio. Además, si el autor está acostumbrado a mezclar palabras funcionales (como "obtener tierra"), este análisis debe ser más cauteloso. Además, se perderá parte de la información de las dimensiones superiores a las dos dimensiones, lo que aportará cierta incertidumbre al juicio.