Avaliação de Metodologia Forense de Comparação Automática de Locutores em Vozes Sintetizadas

Adelino Silva; Gerson Silva; Rafaello Virgilli; Ronaldo Silva

doi:10.70365/2764-0779.2025.164

Autores/as

Adelino Silva Academia de Polícia Civil de Minas Gerais Autor/a https://orcid.org/0000-0002-2796-4841
Gerson Albuquerque da Silva Superintendencia de la Policía Técnico-Científica de São Paulo Autor/a https://orcid.org/0009-0000-9376-164X
Rafaello Virgilli Superintendencia de la Policía Técnico-Científica de Goiás Autor/a https://orcid.org/0009-0002-5040-5869
Ronaldo Rodrigues da Silva Policía Federal Autor/a https://orcid.org/0000-0003-1263-4572

DOI:

https://doi.org/10.70365/2764-0779.2025.164

Palabras clave:

Voces Sintetizadas, Comparación Forense de Locutor, Clonación de Voz, Sistema de Reconocimiento Automático de Locutor, Deepfake

Resumen

La comunicación oral porta información identificadora más allá del mensaje transmitido, permitiendo el desarrollo de sistemas biométricos vocales y protocolos científicos para comparación forense de locutores (CFL). Con la evolución de la síntesis de voz por inteligencia artificial, surgen preocupaciones sobre seguridad y capacidad de detección humana. A pesar del rendimiento de los Sistemas de Reconocimiento Automático de Locutores (SRAL), estos aún necesitan evolucionar para superar las tecnologías de síntesis por IA, especialmente en el contexto del portugués brasileño. Este trabajo objetiva comparar el rendimiento de SRAL aplicadas con metodologías de CFL en voces sintetizadas por IA, cuestionando cómo el SRAL utilizando ECAPA-TDNN implementado en SpeechBrain reacciona a la comparación de voces clonadas. La metodología exploratoria cuantitativa utilizó el Corpus Forense del Portugués Brasileño (CFPB) para calibración y el corpus CEFALA-1 para experimentación, empleando el modelo ECAPA-TDNN de SpeechBrain y servicios de clonación ElevenLabs® y Coqui-TTS®. Los resultados mostraron que el framework presentó rendimiento óptimo en voces naturales (precisión balanceada >95%), pero vulnerabilidades a voces sintetizadas, con todas las voces clonadas clasificadas como del mismo locutor. Frente a este resultado, se recomienda el desarrollo de protocolos específicos para análisis forenses con sospecha de clonación vocal.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Adelino Silva, Academia de Polícia Civil de Minas Gerais

Adelino Pinheiro Silva é bacharel (2004), mestre (2007) e doutor (2020) em Engenharia Elétrica pela Universidade Federal de Minas Gerais; capacitado (2009) em Fonética Forense junto a Secretaria Nacional de Segurança Pública. Editor da Revista Brasileira de Criminalística, da Revista Criminalística e Medicina Legal e da Revista Avante. Compõe o corpo docente e a coordenação do Curso de Gestão em Segurança Pública e Inteligência Aplicada (GESPIN) e atua no Setor de Perícias em Áudio e Vídeo no Instituto de Criminalística de Minas Gerais, onde realiza exames técnicos e pesquisas.
Gerson Albuquerque da Silva, Superintendencia de la Policía Técnico-Científica de São Paulo

Es licenciado en Física, Lingüística y Lengua y Literatura Portuguesas. Estudió Ciencias Forenses del Habla en el Departamento de Lengua y Ciencias Lingüísticas de la Universidad de York (Yorkshire, Reino Unido). También tiene una maestría en Ingeniería de la Información y Multimedia. De 2013 a 2016, formó parte del Grupo de Señales de Audio y Voz para Reconstrucción y Reconocimiento de la Escuela Politécnica de la Universidad de São Paulo [Proceso FAPESP 2012 / 24789-0], bajo la coordinación del profesor Miguel Arjona Ramírez (http://www.bv.fapesp.br/pt/pesquisador/8134/miguel-arjona-ramirez). Desde 2019, colabora en el desarrollo de un sistema de comparación de voz forense de código abierto para la investigación y la práctica en la Universidad de Aston. Tiene experiencia en Defensa, Fonética Forense, Acústica Forense, Audio Forense y Metrología Forense. Ha elaborado cientos de informes relacionados con Lingüística Forense, Fonética Forense, Acústica Forense y Análisis de Audio Forense. (Texto informado por el autor)
Rafaello Virgilli, Superintendencia de la Policía Técnico-Científica de Goiás

Possui graduação em Física pela Universidade de São Paulo (2004) y mestrado em Ciência da Computação pela Universidade Federal de Goiás (2022). Actualmente es Perito Criminal da Superintendência da Polícia Técnico-Científica de GO. Tienen experiencia en el área de Ciencia de la Computación, incluida la fase de Aprendizaje Profundo. Atuando principalmente nos siguientes temas: aprendizaje profundo, reconocimiento de voz.
Ronaldo Rodrigues da Silva, Policía Federal

Maestría en Ingeniería Eléctrica, con especialización en Informática Forense y Seguridad de la Información, por la Universidad de Brasilia. Posgrado: MBA Ejecutivo en Gestión de Proyectos por la Fundación Getúlio Vargas. Especialización en Ingeniería de Seguridad Laboral por el Centro Federal de Educación Tecnológica de Paraná. Ingeniero Eléctrico con especialización en Electrónica y Telecomunicaciones por el Centro Federal de Educación Tecnológica de Paraná. Trabajó como Ingeniero de Telecomunicaciones en proveedores de servicios de telefonía fija y de datos, y como Especialista en Telecomunicaciones para la Agencia Nacional de Telecomunicaciones. Es Perito Penal Federal desde 2007, adscrito al Instituto Nacional de Criminalística de la Policía Federal en Brasilia, trabajando en el área de análisis forense de equipos audiovisuales y electrónicos.

Evaluación de la metodología forense para la comparación automática de hablantes en voces sintetizadas

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Descargas

Publicado

Declaración de disponibilidad de datos

Número

Sección

Licencia

Cómo citar

ISSN

Idioma

Últimas publicaciones

Información

Desarrollado por

Enviar un artículo

Indexadores

Palabras clave