Investigación sobre Big Data y cambio de modelo de encuesta (1)
Investigación sobre Big Data y cambio de modelo de investigación (1)_Capacitación de analistas de datos
Los big data se utilizan ampliamente en Occidente para la predicción de elecciones presidenciales, marketing empresarial, prevención de enfermedades, análisis financiero, Reforma educativa, así como seguimiento y predicción social, gestión de la seguridad pública, antiterrorismo y otros campos.
El uso de cantidades masivas de datos para detectar y controlar el crimen comenzó en 1994, cuando el Departamento de Policía de la ciudad de Nueva York lanzó un nuevo sistema de gestión de información policial, CompStat (abreviatura de Estadísticas Computarizadas). CompStat basa sus decisiones sobre la asignación de recursos policiales, la prevención del delito y las medidas de respuesta basándose en informes estadísticos de datos comparativos [5]. Con el advenimiento de la era de los big data, los países occidentales están prestando más atención a la construcción de un sistema de investigación y control de delitos basado en big data. El sistema de investigación y control de delitos basado en big data utiliza big data para ayudar a la policía a analizar casos históricos, descubrir tendencias y patrones delictivos mediante el análisis de fuentes de datos urbanos y datos de redes sociales para optimizar la asignación de recursos policiales; , mejorando así la seguridad pública social [6]. Big data ha traído cambios fundamentales al modelo de control e investigación criminal, y el uso de big data para fortalecer la investigación y el control criminal es la dirección del desarrollo futuro.
El ministro de Seguridad Pública, Guo Shengkun, enfatizó que se debe fortalecer vigorosamente la capacidad y el nivel de mantener la seguridad pública y servir a la gente en la era del big data [7]. Las agencias de seguridad pública de todos los niveles en China han comenzado a utilizar conscientemente big data para promover la investigación y el control criminal. Sin embargo, los big data no son sólo una cuestión técnica, sino que también provocan cambios en los conceptos, métodos y mecanismos de investigación. La investigación en los círculos académicos de nuestro país se centra en la aplicación de la tecnología de big data. Hay menos investigación sobre los cambios en los conceptos de investigación, los métodos de investigación y los mecanismos de investigación provocados por big data, y no es lo suficientemente profunda y sistemática. -Se necesita urgentemente una investigación profunda.
1. La compleja situación criminal y la ecología criminal basada en datos en la era del big data
Actualmente, la delincuencia ha presentado una situación más grave y compleja. En primer lugar, la cantidad total de delitos es grande y la tasa de criminalidad aumenta año tras año. Según las estadísticas, sólo en 2012, el número de causas penales presentadas por los órganos de seguridad pública fue de 6.551.440, y el número de sospechosos de delitos aprobados y decididos a ser detenidos por la fiscalía fue de 680.539 casos y 986.056 personas[8]. En las últimas dos décadas, la tasa de criminalidad de mi país ha tenido una tendencia ascendente año tras año, y el número de casos penales ha aumentado en un promedio de más del 22% anual, superando la tasa de crecimiento del PIB nacional. El segundo es la inteligencia del crimen. El delito es una existencia social y el desarrollo de la ciencia ha penetrado en todos los aspectos del delito, mejorando la capacidad y el daño del delito. Esto se manifiesta en dos aspectos: primero, el uso del pensamiento científico para cometer delitos, lo que se refleja principalmente en el rigor del pensamiento criminal, su cuidadoso despliegue y planificación antes de cometer un delito, y el pensamiento y las estrategias científicas que permean el proceso penal. El segundo es el uso de la ciencia y la tecnología para cometer delitos, destacando los delitos digitales. Tomando como ejemplo el delito cibernético, en 2012, las agencias de seguridad pública de todo el país resolvieron más de 118.000 casos de delito cibernético y arrestaron a más de 216.000 sospechosos. El "Informe de seguridad Norton" de Symantec publicado en septiembre de 2012 muestra que se estima que más de 257 millones de personas en China fueron víctimas de delitos cibernéticos entre julio de 2011 y julio de 2012. La pérdida económica directa causada por el delito cibernético asciende a 289 mil millones de yuanes, y la pérdida económica directa por víctima es de aproximadamente 1.200 yuanes [9]. En tercer lugar, la complejidad del tiempo y el espacio del crimen. El desarrollo de la ciencia y la tecnología modernas ha hecho que el tiempo del crimen sea no lineal, que el espacio del crimen falte y que las combinaciones tiempo-espacio sean multidimensionales, diversificadas y arbitrarias [10]. El cuarto es la complejidad del vínculo causal del caso. En comparación con la sociedad tradicional, estática y única, la sociedad moderna es una sociedad dinámica y compleja. En una sociedad dinámica y compleja, los vínculos causales no son lineales, están acoplados, son multicausales y están fracturados, y los vínculos causales de los delitos suelen ser difíciles de determinar.
El desarrollo de la tecnología informática y de redes ha llevado a la sociedad actual a la era del big data. La era del big data es, ante todo, la era del registro de datos.
En la era del registro de datos, el registro de datos se ha convertido en el modo predeterminado [11]. La sociedad humana está siendo registrada por redes de datos compuestas por sensores y microprocesadores ubicuos, como teléfonos móviles, redes y sistemas de vigilancia, tecnología de radiofrecuencia. etc. están por todas partes registrando nuestro comportamiento e incluso nuestros pensamientos. "Cuando salimos por la mañana, las cámaras en el ascensor registran nuestro tiempo de viaje; cuando conducimos al trabajo, las cámaras en la carretera registran nuestra ubicación y velocidad; durante el trabajo, las páginas web registran nuestros hábitos de navegación y registros de búsqueda, y nuestro teléfono registra nuestras conexiones a Internet, la persona y la duración de las llamadas cuando llegamos a casa después del trabajo, nuestros registros de compras determinan nuestra identidad profesional, antecedentes familiares e incluso rasgos de personalidad. El decodificador de TV registra nuestros hábitos de visualización y nuestros gustos de valor. .."[12]"En el mundo digital, todos dejamos 'huellas' electrónicas o 'huellas dactilares' electrónicas. [13] 20 "Estamos en un estado de vigilancia en constante cambio pero cada vez más intenso. De hecho, ahora cada uno de nuestros movimientos puede rastrearse en una base de datos. [14] 12
Astucia ¿Pueden los delincuentes hacer una excepción? ¿Y convertirse en un "ermitaño de los datos"? Convertirse en un "ermitaño de los datos" significa que debe romper por completo con el sistema social moderno. No sólo no puede utilizar productos digitales, sino que tampoco puede ser una "persona" en ningún sentido, porque. La sociedad moderna está casi basada en datos. Sí, una vez que se comunica con los sistemas sociales modernos, es muy probable que sean capturados y registrados por datos. Sin embargo, esto no significa ningún elemento o fragmento del crimen específico del perpetrador, como el tiempo del crimen. , el espacio criminal, el comportamiento criminal y las herramientas criminales, etc., serán registrados y almacenados directa y completamente por los datos, más bien, la información criminal oculta por el criminal siempre se registra asociada con datos masivos de diferentes lados; incluso si faltan algunos de los elementos o fragmentos criminales principales o clave, los datos masivos relevantes se pueden analizar y diseccionar mediante la correlación de datos de diferentes aspectos. Por lo tanto, en la era del big data, sin mencionar los delitos digitales, se puede decir que incluso los métodos criminales tradicionales han caído en un sistema de grabación y almacenamiento en red donde "el cielo es escaso pero no hay fugas". realidad de la ecología criminal actual.
2. El modelo de investigación basado en big data es la elección inevitable de los tiempos.
El modelo se refiere al estilo estándar refinado y abstracto. La relación estructural y la lógica operativa de los elementos de investigación se clasifican según diferentes estándares. Según si la investigación utiliza tecnología de la información, la comunidad académica divide el modo de investigación en el modo de investigación tradicional y el modo de investigación orientado a la información. La diferencia esencial entre el modelo de investigación tradicional y el modelo de investigación basado en información no radica en si se utiliza la información, sino en la forma en que se registra, almacena, extrae y analiza la información. Los métodos, los modelos de investigación se pueden dividir en modelos de investigación tradicionales. Modelos de investigación basados en información empresarial y modelos de investigación basados en big data La comunidad académica generalmente se refiere a modelos de investigación basados en información empresarial y modelos de investigación basados en big data como modelos de investigación basados en información, pero no solo existen diferencias en el desarrollo. etapa entre los dos (el modelo de investigación basado en big data se desarrolla sobre la base de la investigación basada en información empresarial), pero también existen diferencias esenciales en el tipo de información, la extracción de información y los métodos de investigación y juicio, y finalmente Lo importante Es que esta diferencia ha provocado cambios fundamentales en los conceptos, características y mecanismos de investigación.
El modelo de investigación tradicional es un modelo con bajo contenido tecnológico en el almacenamiento, extracción y análisis de información, registro y almacenamiento de información. información principalmente a través del cerebro humano y el sistema de escritura (la sociedad tradicional ha desarrollado un conjunto completo de sistemas de escritura debido a la necesidad de registrar información, lo que a menudo conduce a la recopilación de archivos de escritura de diferentes categorías para el registro de información criminal). Además de los cerebros humanos y los archivos escritos, la información criminal también se registra en forma de intercambio de material en la escena del crimen. Por tanto, los principales medios de investigación tradicional son la investigación y el cuestionamiento (extraer información almacenada en el cerebro) y la búsqueda en archivos de texto.
Sin embargo, el desarrollo de la modernización ha dado a los delincuentes un mayor anonimato y movilidad, lo que alguna vez rompió las ventajas que alguna vez tuvieron los órganos de seguridad pública. Esta es también una de las razones del crecimiento explosivo de la delincuencia en la actualidad. Sin embargo, el crimen es una existencia social. Cuando la sociedad crea las condiciones para el crimen, también brinda a los humanos oportunidades para restringirlo. La ecología de los datos criminales ha cambiado fundamentalmente la forma en que se registra y almacena la información criminal, ampliando enormemente la "memoria social" y cambiará por completo la comparación entre la tecnología de investigación y la tecnología criminal. Por lo tanto, debemos cambiar el modelo de investigación tradicional y utilizar el modelo de investigación basado en big data para controlar y combatir el crimen.
En segundo lugar, en la era del big data, los datos que la investigación enfrenta y puede procesar ya no son pequeños datos, sino grandes datos. Hoy en día, los datos a los que se enfrenta y puede procesar el trabajo de investigación se caracterizan por tener un gran volumen, muchos tipos y una baja densidad de valor. La diferencia entre "estanque" y "océano" se refleja más fácilmente en la escala [15]. En el pasado, incluso en la etapa de investigación dominada por información empresarial, la cantidad de datos enfrentados o procesados era equivalente a un "estanque". En estas circunstancias, la cantidad de datos a los que se enfrenta y procesa la investigación moderna es un "océano". No sólo eso, los datos a los que se enfrenta la investigación moderna son diversos: desde un punto de vista estructural, no sólo hay datos estructurados, sino también datos estructurados. una gran cantidad de datos semiestructurados y datos no estructurados; desde el punto de vista del tipo de datos, hay datos comerciales, datos sin procesar del usuario, datos de detección de sensores, texto, imágenes, audio y video; enlaces, etc.; de la composición de los casos penales Mire, hay personas, sus relaciones, comportamientos, así como cosas, tiempo, espacio y datos de intención subjetiva. Entre los datos masivos, el. Los datos sobre la delincuencia son sólo un pequeño "aerosol". Pero es muy valioso. Tomando el vídeo como ejemplo, durante el seguimiento continuo e ininterrumpido, sólo hay uno o dos segundos de datos potencialmente útiles [16]
En tercer lugar, la tecnología de big data puede recopilar datos a partir de cantidades masivas, extraer, analizar y predecir información criminal futura a partir de datos cuya escala o complejidad excede la de las tecnologías comúnmente utilizadas y no pueden capturarse ni procesarse dentro de costos y plazos razonables. La tecnología de datos basada en la computación en la nube puede superar los requisitos de las limitaciones de tiempo y costos de la tecnología tradicional. Específicamente, la tecnología de big data puede extraer y analizar datos multiestructurados y de múltiples fuentes de manera oportuna, especialmente datos semiestructurados y no estructurados. y puede extraer y analizar cantidades masivas de datos. Se puede extraer una gran cantidad de detalles, fragmentos y datos relacionados con el crimen de diferentes aspectos de los datos desordenados, que pueden "conectar los datos, conectar los bits de información". , y unir los fragmentos" [13] 29-30, haciéndolo aparecer en la superficie. Los fragmentos de datos aparentemente irrelevantes y sin sentido ensamblan una imagen criminal clara y completa. Para determinar la identidad de un sospechoso criminal, tal vez solo se necesiten cuatro datos. En segundo lugar, los big data se basan en la computación en la nube y pueden extraerse y analizarse información de manera razonable en un corto período de tiempo. Tomando como ejemplo el caso de Zhou Kehua, la policía de Nanjing utilizó cientos de agentes de policía. Es posible realizar búsquedas de carne humana en datos de videovigilancia, pero el uso de tecnología de big data puede requerir solo unas pocas horas. En tercer lugar, uno de los avances más fundamentales de la tecnología de big data es la capacidad de utilizar datos masivos para el análisis de algoritmos y de información, lo que ayuda. comprender el pasado, analizar las causas y revelar patrones delictivos. Finalmente, los macrodatos pueden encontrar significado en el análisis de los patrones del pasado, prediciendo así el futuro y brindándonos oportunidades para optimizar la asignación de recursos policiales y combatir el crimen. /p>
3. Cambios de concepto bajo el modelo de investigación basado en big data
Hegel señaló que "los conceptos son la racionalidad de cualquier disciplina" [17], y los conceptos contienen "algunas nociones preconcebidas". , que son prospectivos, direccionales y orientados al diseño [18]. El primer paso en la transformación de los modelos de encuesta es el estudio conceptual. Los conceptos del modelo se refieren a los puntos de vista, opiniones y creencias que se reflejan en el modelo de investigación y. tener un papel rector, controlador y decisivo en las actividades de investigación. El modelo de investigación basado en big data no es sólo un nuevo modelo de trabajo, sino también una nueva forma de pensar y nuevos conceptos. En la era del big data, el trabajo de investigación debe establecer los siguientes conceptos:
Conceptos online y abiertos. Big data son, ante todo, datos en línea.
Los macrodatos no sólo son de gran volumen, sino también datos que registran dinámicas sociales complejas en tiempo real: los datos originales de los usuarios son captados por varios sensores, y son estos datos los que se mezclan con “pistas” de delincuencia. Para la investigación, los datos estructurados acumulados por la plataforma de seguridad pública son muy importantes, especialmente para la verificación de personas, cosas y objetos, pero es difícil tener antecedentes penales en tiempo real. La investigación basada en big data se basa en los datos estructurados acumulados por la plataforma de seguridad pública y extrae, analiza y procesa los datos originales del usuario en constante cambio y varios datos de sensores para obtener información. Por lo tanto, para la investigación basada en big data, debemos adherirnos al concepto de datos en línea y datos abiertos para obtener los datos masivos que necesitamos y luego analizarlos y procesarlos.
Concepto de investigación basada en datos. En la era del big data, los datos son la ecología del crimen. El proceso de investigación es el proceso de almacenamiento, extracción y análisis de datos que atraviesa todos los aspectos de la investigación. "Dejar que los datos hablen" se ha convertido en el pensamiento básico de la investigación. El concepto de investigación basada en datos incluye al menos los tres aspectos siguientes: Primero, todos los fenómenos relacionados con el delito pueden ser datos. Todo lo que se puede cuantificar puede ser datos [19]25-26. No sólo cosas tangibles relacionadas con el crimen como el tiempo, el espacio, las características humanas (características biológicas, hábitos de comportamiento, etc.), métodos de comportamiento, medios, cosas, etc. se puede cuantificar y digitalizar, y también se pueden cuantificar y digitalizar aquellas cosas intangibles relacionadas con la delincuencia, como los valores, actitudes, emociones, etc. de las personas. En segundo lugar, los macrodatos son el recurso básico para la investigación y la caja de herramientas para la investigación. La investigación es la extracción y el análisis de datos. El éxito de la investigación depende en cierta medida de la capacidad de extraer y analizar recursos de big data. Utilizando diversas técnicas de análisis de big data, podemos obtener la información criminal requerida. Finalmente, en la era del big data, los datos están en el centro del trabajo de investigación y dominan su funcionamiento. La reconstrucción de la escena del crimen, la toma de decisiones de investigación, la selección de la ruta de investigación, el análisis de la investigación, el mapeo de datos, la predicción de la investigación, etc., giran en torno a la operación de datos.
El concepto de relevancia. Big data determina la correlación cuantificando la relación matemática entre dos valores de datos. Una fuerte correlación significa que cuando el valor de un dato aumenta, es probable que el otro valor de los datos aumente en consecuencia [3]71. Las encuestas tradicionales recopilan y analizan datos de acuerdo con los estándares de causalidad y estructura de datos③. En la era del big data, podemos analizar y utilizar casi todos los datos relevantes. No necesitamos ceñirnos a los estándares de causalidad y estructura de datos para recopilar datos. En cambio, insistimos en utilizar la correlación como estándar, y no solo recopilar datos estructurados. datos, pero también datos semiestructurados y datos no estructurados. Aunque esta correlación no puede revelar directamente la relación causal interna, la correlación que muestra todavía tiene un gran valor práctico para detectar y controlar el delito.
La correlación permite a los investigadores pensar y analizar el caso desde todos los ángulos. Aunque la relevancia no persigue la precisión, sí persigue la riqueza, no rechaza ninguna oportunidad y crea y utiliza oportunidades tanto como sea posible. Es a través de la correlación que información aparentemente inconexa puede vincularse intrínsecamente para proporcionar una comprensión más completa del caso. Esto puede ayudarnos a descubrir pistas para resolver el caso, aclarar las ideas para resolverlo y delinear el alcance de la investigación.
La correlación puede darnos orientación para determinar aún más la relación causal, determinando así la causa del delito y probando los hechos del delito. El análisis de la correlación es la base para analizar la causalidad. La correlación no es necesariamente causalidad, pero la causalidad debe ser muy relevante. A través de la correlación, podemos explorar más a fondo si existe una relación causal entre ellos, logrando así el propósito de probar un delito.
Un valor importante de la correlación es que puede monitorear situaciones delictivas. Como se mencionó anteriormente, las causas que afectan el crimen hoy en día son diversas y complejas, y es difícil o incluso imposible determinar las razones por las cuales ocurre el crimen. Lo importante para los investigadores tal vez no sea encontrar la causa de un delito, sino controlarlo. Al correlacionar e identificar a los asociados, es posible monitorear situaciones delictivas y así asignar fuerzas policiales de manera efectiva contra el crimen.
A través de la correlación se puede predecir la delincuencia. El valor central del big data reside en la predicción.
Al recopilar datos relevantes y construir modelos de big data, podemos predecir cuándo, dónde, quién y qué tipos de delitos pueden ocurrir desde una perspectiva micro. También podemos predecir las tendencias delictivas desde una perspectiva macro, para prevenirlas y combatirlas. El crimen ofrece mejores oportunidades.
El concepto de combinar la resolución de delitos en línea con la recopilación de pruebas fuera de línea. Los macrodatos hacen que parezca fácil detectar e identificar a un sospechoso. Pero los datos son solo un reflejo de los hechos, lo que no significa que sean la verdad; 4 Además, la lógica algorítmica de los grandes datos (énfasis en la correlación, solo juzgando la probabilidad, e incluso errores fatales debido al ruido y otros factores) y la lógica de la prueba legal (énfasis en la causalidad para eliminar. Existen diferencias en el estándar de prueba (sospecha razonable), por lo que resolver el caso aún requiere más pruebas de acuerdo con los requisitos operativos del sistema legal. Incluso si los sospechosos de delitos pueden identificarse a través de big data y cumplir con el estándar de eliminar dudas razonables, el sistema algorítmico de big data debe transformarse en un sistema de certificación que cumpla con los requisitos de las regulaciones legales, y la identificación de datos debe transformarse en identificación legal. . Sin embargo, la resolución de delitos en línea y la prueba fuera de línea no están separadas. Los macrodatos pueden desempeñar un papel guía en nuestra prueba, ayudándonos a encontrar evidencia y determinar la causalidad. Por lo tanto, en la era del big data, no podemos abandonar la correlación y solo buscar la causalidad. También debemos evitar el uso de la correlación para reemplazar la causalidad y evitar el uso de predicciones para reemplazar los hechos.
Lo anterior es lo que he compartido con ustedes sobre los cambios en la investigación y los métodos de investigación de big data (1). Para obtener más información, puede seguir a Global Green Ivy para compartir más información seca.