¿Cómo prevenir el fraude de voz mediante IA?
La tecnología de voz con IA se está desarrollando a toda velocidad y, en otra dimensión del espacio, están sucediendo silenciosamente algunos eventos misteriosos que tocan los corazones de las personas.
Si usted es una celebridad de Internet, un actor, un líder, el fundador de una empresa o tiene una gran cantidad de audio y vídeo públicos en sitios web de vídeos cortos, es muy probable que elementos ilegales los utilicen para sintetiza y genera tu voz, lo que en la industria se llama deepfake.
En marzo de 2019, un ejecutivo de una empresa energética británica recibió una llamada urgente del "CEO boss" de la empresa matriz alemana. El "CEO boss" le pidió que enviara fondos a un proveedor húngaro. La persona que llamó afirmó que "la solicitud es muy urgente" y pidió al administrador que pagara 220.000 euros (aproximadamente 1.730.806 RMB) en el plazo de una hora. Al principio, el ejecutivo británico no se dio cuenta de que algo andaba mal. Durante toda la llamada, el ligero acento alemán del CEO se hizo evidente. El ejecutivo no tuvo ninguna sospecha hasta que le pidieron que transfiriera dinero nuevamente. Me di cuenta de que algo era inusual. Los delincuentes hicieron tres llamadas telefónicas cuando se transfirieron los primeros 220.000 euros, llamaron para decir que la empresa matriz había transferido fondos para reembolsar a la empresa británica. Ese mismo día hicieron una tercera llamada, haciéndose pasar nuevamente por director general y solicitaron una segunda transferencia. . Como la tercera llamada procedía de un número austriaco, la administración de la empresa británica sospechó y no se realizó ninguna transferencia. Investigaciones posteriores descubrieron que los 220.000 euros no fueron transferidos al llamado proveedor húngaro, sino a México y otros países. Después de que la policía investigó el incidente, descubrió que los estafadores utilizaron un software de síntesis de voz con inteligencia artificial para imitar la voz del director ejecutivo de la empresa matriz alemana, pero aún no han podido encontrar a los estafadores detrás de escena.
Un periodista de tecnología se dejó influenciar por los comentarios de Aviv Ovadya, ex director de tecnología del Centro para la Responsabilidad de las Redes Sociales de la Universidad de Michigan, y realizó un experimento de este tipo. Usó un software de síntesis de inteligencia artificial para imitar su propia voz. y luego se llamó Madre, ¿quién es la persona en el mundo que más conoce su propia voz? Definitivamente tu madre es la que está más familiarizada con tu voz, pero el resultado aterrador es que no escucha nada extraño en absoluto.
Una empresa llamada "Lyrebird", cofundada por tres doctores de la Universidad de Montreal, ha desarrollado una tecnología de "síntesis de voz" que sólo requiere una grabación de alta calidad de 1 minuto de la voz de la persona objetivo. , tíralo a "Lyrebird" para que lo procese y obtendrás una clave especial. Puedes usar esta clave para generar lo que la persona objetivo quiera decir. "Lyrebird" no solo puede utilizar algoritmos de imitación de voz para imitar la voz de cualquier persona, sino que también puede agregar elementos "emocionales" a la voz para hacer que suene más realista.
Aunque no seamos celebridades, nosotros, los usuarios comunes y corrientes, hemos dejado decenas de miles de voces históricas en las plataformas móviles de voz social. Por lo general, la voz en la APLICACIÓN no se puede reenviar, pero ha aparecido en Internet un "software mejorado" que puede guardar y reenviar los archivos de voz de las conversaciones en la APLICACIÓN, siempre que la cuenta del amigo sea robada y la cuenta. Se obtiene la voz de un amigo, los elementos ilegales pueden sintetizar fácilmente voces que suenan familiares de familiares y amigos.
Sepa esto y conozca lo otro: varios métodos principales de ataque y fraude de voz
Para saber esto y conocernos unos a otros, y sobrevivir a cien batallas, necesitamos hacer una investigación. -Estudio en profundidad de los métodos comunes de fraude y ataques de voz. Actualmente existen tres métodos comunes de fraude de ataques de voz: síntesis de voz (Text-To-Speech, TTS), conversión de voz (Voice Conversion, VC) y reproducción de grabación (Replay). En la competencia ASVspoofing más importante del mundo, la escena donde se integran la síntesis y la conversión de voz se llama LA (Acceso lógico), y la escena donde se graba y reproduce se llama PA (Acceso físico).
El principio de funcionamiento de la síntesis y conversión de voz se muestra en la Figura 1. La tecnología de modelado de formas de onda basada en redes neuronales es similar al habla generada por WaveNet y está muy cerca del habla de personas reales.
El habla producida por los mejores sistemas en Voice Conversion Challenge 2018 ha mejorado enormemente la naturalidad y similitud de las voces humanas simuladas.
Figura 1 El principio de funcionamiento de la síntesis y conversión de voz
ASVspoofing Challenge es una competencia de clase mundial establecida en los últimos años para estudiar los ataques de voz e intentar resolver este problema. es diseñar un sistema de seguridad antiataque eficaz que pueda detectar con precisión el discurso falso generado por los últimos algoritmos o diferentes algoritmos, o incluso algoritmos invisibles. Hasta el momento se han celebrado tres sesiones: ASVspoofing2015, ASVspoofing2017 y ASVspoofing2019. Participan varias instituciones de investigación de primer nivel y empresas de renombre. El conjunto de datos de capacitación, prueba y verificación proporcionado por el organizador de ASVspoofing2019 enumera e incluye los últimos algoritmos y métodos de ataque en la industria, incluidos 10 algoritmos principales para TTS, 4 algoritmos principales para VC y 3 algoritmos de fusión de TTS y VC, el El algoritmo y los resultados se muestran en la Figura 2. Se puede entender que los algoritmos más recientes utilizan principalmente modelos de forma de onda neuronal (modelos de forma de onda neuronal) y filtrado de forma de onda (filtrado de forma de onda), o variantes de estas tecnologías. Al mismo tiempo, el último algoritmo de TTS/VC también se basa en algunos puntos técnicos centrales en el reconocimiento de locutores. Estos algoritmos se pueden generar en base a algunos paquetes de herramientas como Merlin, CURRENT, MarryTTS, etc. Al mismo tiempo, podemos observar algunos otros detalles importantes. Un indicador importante para evaluar el rendimiento de un sistema de reconocimiento de locutor (verificación automática de locutor, ASV) es la tasa de error igual EER. Cuanto menor sea el EER, mejor será el rendimiento del ASV. reconocimiento. Cuando no hay un ataque de voz falsa, el rendimiento de ASV es solo 2,48. Sin embargo, cuando el sistema es atacado por voz falsa sintetizada por TTS y VC, el rendimiento cae rápidamente. Como se puede ver en la Figura 2, el EER puede aumentar. un máximo de 64,78. Se puede ver que el ataque de voz tiene un gran impacto en los sistemas de voz, como el reconocimiento del hablante y el reconocimiento de huellas de voz, así como la gran importancia de las medidas de seguridad para la falsificación y el antiataque.