Evaluación de la metodología forense para la comparación automática de hablantes en voces sintetizadas

Autores/as

DOI:

https://doi.org/10.70365/2764-0779.2025.164

Palabras clave:

Voces Sintetizadas, Comparación Forense de Locutor, Clonación de Voz, Sistema de Reconocimiento Automático de Locutor, Deepfake

Resumen

La comunicación oral porta información identificadora más allá del mensaje transmitido, permitiendo el desarrollo de sistemas biométricos vocales y protocolos científicos para comparación forense de locutores (CFL). Con la evolución de la síntesis de voz por inteligencia artificial, surgen preocupaciones sobre seguridad y capacidad de detección humana. A pesar del rendimiento de los Sistemas de Reconocimiento Automático de Locutores (SRAL), estos aún necesitan evolucionar para superar las tecnologías de síntesis por IA, especialmente en el contexto del portugués brasileño. Este trabajo objetiva comparar el rendimiento de SRAL aplicadas con metodologías de CFL en voces sintetizadas por IA, cuestionando cómo el SRAL utilizando ECAPA-TDNN implementado en SpeechBrain reacciona a la comparación de voces clonadas. La metodología exploratoria cuantitativa utilizó el Corpus Forense del Portugués Brasileño (CFPB) para calibración y el corpus CEFALA-1 para experimentación, empleando el modelo ECAPA-TDNN de SpeechBrain y servicios de clonación ElevenLabs® y Coqui-TTS®. Los resultados mostraron que el framework presentó rendimiento óptimo en voces naturales (precisión balanceada >95%), pero vulnerabilidades a voces sintetizadas, con todas las voces clonadas clasificadas como del mismo locutor. Frente a este resultado, se recomienda el desarrollo de protocolos específicos para análisis forenses con sospecha de clonación vocal.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • Adelino Silva, Academia de Polícia Civil de Minas Gerais

    Adelino Pinheiro Silva é bacharel (2004), mestre (2007) e doutor (2020) em Engenharia Elétrica pela Universidade Federal de Minas Gerais; capacitado (2009) em Fonética Forense junto a Secretaria Nacional de Segurança Pública. Editor da Revista Brasileira de Criminalística, da Revista Criminalística e Medicina Legal e da Revista Avante. Compõe o corpo docente e a coordenação do Curso de Gestão em Segurança Pública e Inteligência Aplicada (GESPIN) e atua no Setor de Perícias em Áudio e Vídeo no Instituto de Criminalística de Minas Gerais, onde realiza exames técnicos e pesquisas.

  • Gerson Albuquerque da Silva, Superintendencia de la Policía Técnico-Científica de São Paulo

    Es licenciado en Física, Lingüística y Lengua y Literatura Portuguesas. Estudió Ciencias Forenses del Habla en el Departamento de Lengua y Ciencias Lingüísticas de la Universidad de York (Yorkshire, Reino Unido). También tiene una maestría en Ingeniería de la Información y Multimedia. De 2013 a 2016, formó parte del Grupo de Señales de Audio y Voz para Reconstrucción y Reconocimiento de la Escuela Politécnica de la Universidad de São Paulo [Proceso FAPESP 2012 / 24789-0], bajo la coordinación del profesor Miguel Arjona Ramírez (http://www.bv.fapesp.br/pt/pesquisador/8134/miguel-arjona-ramirez). Desde 2019, colabora en el desarrollo de un sistema de comparación de voz forense de código abierto para la investigación y la práctica en la Universidad de Aston. Tiene experiencia en Defensa, Fonética Forense, Acústica Forense, Audio Forense y Metrología Forense. Ha elaborado cientos de informes relacionados con Lingüística Forense, Fonética Forense, Acústica Forense y Análisis de Audio Forense. (Texto informado por el autor)

  • Rafaello Virgilli, Superintendencia de la Policía Técnico-Científica de Goiás

    Possui graduação em Física pela Universidade de São Paulo (2004) y mestrado em Ciência da Computação pela Universidade Federal de Goiás (2022). Actualmente es Perito Criminal da Superintendência da Polícia Técnico-Científica de GO. Tienen experiencia en el área de Ciencia de la Computación, incluida la fase de Aprendizaje Profundo. Atuando principalmente nos siguientes temas: aprendizaje profundo, reconocimiento de voz.

  • Ronaldo Rodrigues da Silva, Policía Federal

    Maestría en Ingeniería Eléctrica, con especialización en Informática Forense y Seguridad de la Información, por la Universidad de Brasilia. Posgrado: MBA Ejecutivo en Gestión de Proyectos por la Fundación Getúlio Vargas. Especialización en Ingeniería de Seguridad Laboral por el Centro Federal de Educación Tecnológica de Paraná. Ingeniero Eléctrico con especialización en Electrónica y Telecomunicaciones por el Centro Federal de Educación Tecnológica de Paraná. Trabajó como Ingeniero de Telecomunicaciones en proveedores de servicios de telefonía fija y de datos, y como Especialista en Telecomunicaciones para la Agencia Nacional de Telecomunicaciones. Es Perito Penal Federal desde 2007, adscrito al Instituto Nacional de Criminalística de la Policía Federal en Brasilia, trabajando en el área de análisis forense de equipos audiovisuales y electrónicos.

Publicado

2025-12-16

Declaración de disponibilidad de datos

Los datos relacionados con esta investigación pueden solicitarse a los autores vía correo electrónico.

Cómo citar

SILVA, Adelino; SILVA, Gerson; VIRGILLI, Rafaello; SILVA, Ronaldo. Evaluación de la metodología forense para la comparación automática de hablantes en voces sintetizadas. Avante: Revista Académica de la Policía de Minas Gerais, [S. l.], v. 1, n. 9, 2025. DOI: 10.70365/2764-0779.2025.164. Disponível em: https://revistaavante.policiacivil.mg.gov.br/index.php/avante/article/view/164. Acesso em: 19 dec. 2025.