Principios de detección y métodos del sistema de detección de mala conducta académica
TMLC necesita una biblioteca de recursos de comparación de datos de texto completo que sea lo más completa posible, y la Biblioteca de Publicaciones de la Red de Literatura Académica China (CALNPR) de CNKI cumple con este requisito. Hasta ahora, CNKI tiene más de 7.000 revistas académicas y 24,8 millones de documentos de revistas en texto completo. La cantidad de revistas y la tasa de integridad de la inclusión de documentos superan el 99,9. La cantidad de documentos ocupa el primer lugar entre productos similares en el mundo y a nivel nacional. ha publicado 720.000 excelentes tesis de maestría en 503 programas de maestría con más de 5 millones de copias de 1.376 anuarios importantes; más de 2,2 millones de copias; académico Hay más de 6 millones de datos de índice de citas; estas publicaciones han actualizado un promedio de 20.000 registros cada día; además, las bases de datos SPRINGER y los estándares nacionales también están integrados en la plataforma de publicación en línea CNKI; La plataforma de publicación también integra 1.020 recursos de bases de datos de terceros.
CNKI tiene ventajas obvias en el país en términos de los tipos de recursos incluidos, incluidas revistas, tesis, artículos de conferencias, periódicos, anuarios, libros de referencia, patentes, literatura extranjera, citas de literatura académica y otros recursos importantes. relacionado con la investigación científica y el aprendizaje. En términos de la cantidad de recursos recopilados, CNKI es significativamente mejor que productos similares, y cada biblioteca de recursos tiene un largo historial de recopilación. Las principales bibliotecas de recursos, como las revistas, se remontan al comienzo de la revista. En términos de velocidad de actualización de recursos, a excepción de los documentos en idiomas extranjeros cooperados con terceros, otros recursos de los productos CNKI se actualizan diariamente y la cantidad de actualizaciones en un solo día es grande como resultado de la industrialización y la operación estandarizada. El sistema de indicadores que utiliza el sistema de detección de malas conductas académicas se divide en dos partes:
3.1 Indicadores totales de detección
Las disertaciones generalmente tienen una gran cantidad de literatura y una gran cantidad de palabras de maestría. La tesis suele tener entre 3 y 50 000 palabras, la tesis doctoral hasta 100 000 palabras o más. Por lo tanto, para permitir a los usuarios comprender rápidamente la descripción general de todo el artículo, se formula especialmente el siguiente sistema de indexación:
lNúmero total de palabras superpuestas (CCA)
lCopia total de texto ratio (TTR)
p>l Recuento total de palabras (TCA)
l Número cuestionable de capítulos (QCA)
l Número total de capítulos (TCA)
l Superposición en la primera parte Número de textos (HCCA)
l Número de textos superpuestos en la última parte (ECCA)
Los indicadores anteriores describen la Detección general del papel. Los indicadores anteriores describen la detección general del papel, lo que permite a los usuarios comprender rápidamente la situación general de la detección del papel. A continuación se explica cada uno de los indicadores anteriores.
3.1.1 Superposición del recuento total de palabras (CCA)
Las disertaciones generalmente son más largas, desde 30 000 a 50 000 palabras hasta un máximo de 100 000 palabras, por lo que se utiliza la copia de texto para comparar No es apropiado medir el grado de superposición textual en una disertación. Porque para tesis doctorales de más de 100.000 palabras, 10 han llegado a las 10.000 palabras y la situación de copia de textos se ha vuelto muy grave. Por lo tanto, para la detección de tesis de doctorado y maestría, el sistema de detección utiliza el recuento absoluto de palabras, es decir, la suma del número de palabras superpuestas, como indicador central de los resultados de la detección. Como se muestra en la Figura 6:
3.1.2 Tasa de reproducción total de texto (TTR)
La tasa de replicación total de texto (TTR) se refiere al número de palabras superpuestas en la tesis con respecto al total Número de palabras en la proporción de la tesis. A través de este indicador, podemos ver intuitivamente la proporción de palabras superpuestas en los trabajos evaluados en esta prueba.
3.1.3 Recuento total de palabras (TCA)
El recuento total de palabras es el recuento de palabras del artículo que se está probando. El producto de la proporción de copias de texto y el recuento total de palabras es. el número de palabras superpuestas.
3.1.4 "QCA" y "TCA"
El número "QCA" se refiere al número de capítulos de la tesis sospechosos de mala conducta académica. El número total de capítulos se refiere al número total de capítulos de la disertación (para las disertaciones que no se muestran en capítulos pero que están cortadas a una longitud fija, cada párrafo es un capítulo).
3.1.5 El número de caracteres superpuestos en la primera parte (HCCA) y el número de caracteres superpuestos en la parte final (ECCA)
El número de caracteres superpuestos en la primera La parte se refiere al número de caracteres superpuestos en las primeras 10.000 palabras de la disertación. La cantidad de palabras superpuestas al final del documento se refiere a la cantidad de palabras superpuestas en la parte restante del documento después de eliminar las primeras 10,000 palabras. Para una tesis, el comienzo suele ser un informe de revisión, que es mucho menos importante que el final de la tesis.
Índice de prueba de 3.2 puntos
Para cada capítulo de la disertación, se formulan los siguientes indicadores de prueba para reflejar la situación de prueba del capítulo. Para una disertación, cada capítulo Los contenidos son. diferente y el enfoque también es diferente. El contenido principal del trabajo generalmente se encuentra en ciertos capítulos. Los indicadores de subdetección pueden permitir a los usuarios comprender rápidamente el estado de detección de cada capítulo. Los indicadores de detección incluyen
lProporción de copia de texto (TR)
lNúmero de conjunciones (CNW)
lLongitud máxima de párrafo (LPL)
lLongitud promedio de párrafo (APL)
lNúmero de párrafos (PN)
lProporción de párrafo a texto (PR)
l Proporción de copia del encabezado (HR)) p>