Avaliação de Metodologia Forense de Comparação Automática de Locutores em Vozes Sintetizadas

Autores

DOI:

https://doi.org/10.70365/2764-0779.2025.164

Palavras-chave:

Vozes Sintetizadas, Comparação Forense de Locutor, Clonagem de Voz, Sistema de Reconhecimento Automático de Locutor, Deepfake

Resumo

A comunicação oral carrega informações identificadoras além da mensagem transmitida, permitindo o desenvolvimento de sistemas biométricos vocais e protocolos científicos para comparação forense de locutores (CFL). Com a evolução da síntese de voz por inteligência artificial, surgem preocupações sobre a segurança e capacidade de detecção humana. Apesar do desempenho dos Sistemas de Reconhecimento Automático de Locutores (SRAL), estes ainda precisam evoluir para contornar as tecnologias de síntese por IA, especialmente no contexto do português brasileiro. Este trabalho objetiva comparar o desempenho de SRAL aplicadas com metodologias da CFL em vozes sintetizadas por IA, questionando como o SRAL utilizando ECAPA-TDNN implementado no SpeechBrain reage à comparação de vozes clonadas. A metodologia exploratória quantitativa utilizou o Corpus Forense do Português Brasileiro (CFPB) para calibração e o corpus CEFALA-1 para experimento, empregando o modelo ECAPA-TDNN do SpeechBrain e serviços de clonagem ElevenLabs® e Coqui-TTS®. Os resultados mostraram que o framework apresentou desempenho ótimo em vozes naturais (precisão balanceada >95%), mas vulnerabilidades às vozes sintetizadas, com todas as vozes clonadas classificadas como do mesmo locutor. Frente a este resultado, recomenda-se o desenvolvimento de protocolos específicos para análises forenses com suspeita de clonagem vocal.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Adelino Silva, Academia de Polícia Civil de Minas Gerais

    Adelino Pinheiro Silva é bacharel (2004), mestre (2007) e doutor (2020) em Engenharia Elétrica pela Universidade Federal de Minas Gerais; capacitado (2009) em Fonética Forense junto a Secretaria Nacional de Segurança Pública. Editor da Revista Brasileira de Criminalística, da Revista Criminalística e Medicina Legal e da Revista Avante. Compõe o corpo docente e a coordenação do Curso de Gestão em Segurança Pública e Inteligência Aplicada (GESPIN) e atua no Setor de Perícias em Áudio e Vídeo no Instituto de Criminalística de Minas Gerais, onde realiza exames técnicos e pesquisas.

  • Gerson Albuquerque da Silva, Superintendence of the Technical-Scientific Police of São Paulo

    É formado em Física, Linguística e Língua e Literatura Portuguesas. Estudou Ciências da Fala Forense no Departamento de Linguagem e Ciências Linguísticas da Universidade de York (Yorkshire, Reino Unido). Possui também mestrado em Engenharia da Informação e Multimídia. De 2013 a 2016, foi membro do Grupo de Sinais de Áudio e Voz para Reconstrução e Reconhecimento da Escola Politécnica da Universidade de São Paulo [Processo FAPESP 2012/24789-0], sob a coordenação do professor Miguel Arjona Ramírez (http://www.bv.fapesp.br/pt/pesquisador/8134/miguel-arjona-ramirez). Desde 2019, é sócio do projeto Desenvolvimento de um sistema de comparação de voz forense de código aberto para pesquisa e prática na Universidade de Aston. Possui experiência em Defesa, Fonética Forense, Acústica Forense, Áudio Forense e Metrologia Forense. Produziu centenas de relatórios relacionados à Linguística Forense, Fonética Forense, Acústica Forense e Análise de Áudio Forense. (Texto informado pelo autor)

  • Rafaello Virgilli, Superintendência de Polícia Técnico-Científica de Goiás

    Possui graduação em Física pela Universidade de São Paulo(2004) e mestrado em Ciência da Computação pela Universidade Federal de Goiás(2022). Atualmente é Perito Criminal da Superintendência da Polícia Técnico-Científica de GO. Tem experiência na área de Ciência da Computação, com ênfase em Deep Learning. Atuando principalmente nos seguintes temas:deep learning, voice recognition.

  • Ronaldo Rodrigues da Silva, Polícia Federal

    Mestre em Engenharia Elétrica, na área de Informática Forense e Segurança da Informação, pela Universidade de Brasília. Pós-Graduação MBA executivo em Gerência de Projetos pela Fundação Getúlio Vargas. Especialização em Engenharia de Segurança do Trabalho no Centro Federal de Educação Tecnológica do Paraná. Engenheiro Eletricista, com ênfases em Eletrônica e Telecomunicações pelo Centro Federal de Educação Tecnológica do Paraná. Atuou como Engenheiro de Telecomunicação em empresas de prestação de serviços de telefonia fixa e dados e como Especialista em Telecomunicações pela Agência Nacional de Telecomunicações. Perito Criminal Federal desde 2007, lotado no Instituto Nacional de Criminalística da Polícia Federal em Brasília, atuando na área de perícias em material audiovisual e eletroeletrônicos.

Downloads

Publicado

16-12-2025

Declaração de Disponibilidade de Dados

Os dados referentes a esta pesquisa podem ser solicitados junto aos autores via email.

Como Citar

SILVA, Adelino; SILVA, Gerson; VIRGILLI, Rafaello; SILVA, Ronaldo. Avaliação de Metodologia Forense de Comparação Automática de Locutores em Vozes Sintetizadas. Avante: Revista Acadêmica da Polícia de Minas Gerais, [S. l.], v. 1, n. 9, 2025. DOI: 10.70365/2764-0779.2025.164. Disponível em: https://revistaavante.policiacivil.mg.gov.br/index.php/avante/article/view/164. Acesso em: 19 dez. 2025.