Uso de Inteligencia Artificial en campañas electorales.
Breve análisis del audio de Marcelo Ebrard (2023)

Publicado el 27 de octubre de 2023

Amada María Arley Orduña
Doctora en Derecho, UNAM
amada.arley@gmail.com

En la actualidad, nos encontramos ante la problemática que implica el uso negativo de la Inteligencia Artificial (IA) generativa en las diversas campañas electorales que están sucediendo en todo el mundo. El uso de estas herramientas en audios y videos, donde es aparentemente complejo distinguir una voz humana y una voz clonada, crea una afectación directa en la percepción del elector, su razonamiento y finalmente en su criterio y toma de decisiones.

En el caso de las adelantadas elecciones de coordinadores para las campañas electorales presidenciales de México para el año 2024, hemos visto la aplicación de IA generativa por parte de los seguidores de Xóchitl Galvéz (autodenominados xochillovers) en la creación de videos con contenido de imágenes y voz de la candidata generadas por IA. Dicho contenido ha sido ampliamente difundido en redes sociales, como TikTok. Estos videos no afectan la imagen de la candidata en un sentido opuesto al mensaje que ella pretende enviar al electorado; es decir, es un contenido que busca ser congruente con la narrativa que la candidata diseña de sí misma.

Ahora bien, por el contrario, el 14 de septiembre del año 2023, ha surgido el caso con uno de los ex contendientes para el puesto de Coordinador del Partido Morena en las elecciones presidenciales antes mencionadas. En este caso, se difundió por redes sociales, en especial TikTok, un audio en el que Marcelo Ebrard expresa con su propia voz:

A ver, ¡esto ya no tiene vuelta! Lo que nos hicieron, no es sólo a nosotros, ¡es al país! Por eso hay que tomar una decisión, la que realmente vaya con los preceptos por los que estábamos en Morena. Ya vieron Zacatecas, así no era. Comiencen a acercarse a la gente de Xóchitl. Ella trae esa misma visión que nosotros. De todas maneras, ya estamos en las pláticas.

Daniel Millán, uno de los portavoces del ex canciller, declaró en X -antes Twitter-, que “la grabación se generó con inteligencia artificial y es parte de una “guerra sucia”. Y así, sin más pena ni gloria, la noticia ha pasado como una nota periodística sin que el propio ex canciller establezca una acción legal a quien resulte responsable, o que él mismo se esfuerce en comprobar a la sociedad en que verdaderamente no es su voz, y qué lo dicho en el video no es consistente con su manera de pensar o actuar. Mostrando de manera contundente que el audio es producto de una IA generativa.

Pero, para los estudiosos de derecho e inteligencia artificial este caso es de suma relevancia y también para la sociedad. ¿Cuál es la verdad?, ¿cómo saber si efectivamente es un audio generado a través de una IA generativa?

En la actualidad, no existe una herramienta IA que nos ayude a distinguir una voz humana de una voz clonada. Teóricamente, puede ser viable desarrollar una IA que ayude con esa labor. Incluso hay algunos estudios doctorales en España que tratan de identificar fraudes por voz. Pero son sólo trabajos teóricos, aún no existe una IA que ayude con esa tarea de identificación.

Por lo cual, tenemos que acudir a algo más simple: nuestro sentido de audición. En los siguientes párrafos me avocaré a describir el proceso de análisis que llevé a cabo para comprender si el audio está constituido por una voz humana o una voz clonada.

En primer lugar, realicé la tarea de escuchar una y otra vez el audio, para compararlo con otros videos y audios en los que se puede apreciar la voz humana de Marcelo.

En segundo lugar, hice la transcripción del audio a texto, con la finalidad de realizar un ejercicio en la plataforma Elevenlabs (una plataforma para usar voces sintéticas o para clonar voz de video de youtube).

En tercer lugar, procedí a realizar varios ejercicios aplicando al texto transcrito diferentes voces sintéticas de Elevenlabs, con la finalidad de captar la diferencia entre el ritmo, métrica y pronunciación de una voz natural y las voces sintéticas de la plataforma, y poder apreciar cómo se escucharía ese texto en cualquier voz sintética y la misma voz clonada de Marcelo.

El resultado escuchado fue: que en los diversos ejercicios se apreció una voz estable, con una pronunciación clara e incluso con cambios de entonación naturales al tipo de voz.

Cómo cuarto paso, descansé un día para no afectar mi percepción del audio. Al día siguiente lo retomé, y fue ahí cuando me percaté de algo que no había escuchado. Cuando el ex canciller dice:

Justo al final de la palabra Morena, Ebrard utiliza la muletilla “¿No?”. Esta muletilla es muy sutil, ya que la liga con la palabra “Morena”. De tal forma, que bajé la velocidad del audio para poder escucharlo con claridad. Al bajar la velocidad del audio, la muletilla es apreciable por completo.

Esta muletilla es imposible que sea generada por una Inteligencia Artificial ya sea como voz sintética o clonada. Para comprobar esto realicé la siguiente tarea.

En la plataforma Elevenlabs aumenté al texto del audio transcrito, la muletilla “¿No?” donde se pronuncia en el audio original, quedando de la siguiente manera: "Por eso hay que tomar una decisión, la que realmente vaya con los preceptos por los que estábamos en Morena ¿No?". Debido a que es la única manera de expresarla en texto.

¿Cuál fue el resultado? Que ninguna voz sintética o clonada pudo reproducir la muletilla de forma sutil como se muestra en el audio original que aquí se analiza. Por el contrario, la voz sintética, pronuncia fonéticamente y de forma clara la palabra “¿No?” con su debido acento de interrogación.

Esto nos ayuda a concluir con un primer elemento que: El audio que el ex canciller Marcelo Ebrard y su vocero, describen como clonado y utilizado para afectar su imagen en una guerra sucia, no es clonado, ni se le ha aplicado una técnica de Inteligencia Artificial. Ya que ninguna IA al momento puede generar muletillas propias de un hablante humano.

Ahora bien, son muchos los elementos que se deben utilizar para analizar si una voz es o no real. Un estudio más a fondo debería utilizar las siguientes técnicas:

a) Análisis Espectral: para analizar las características de frecuencia y amplitud de una grabación de voz. Es decir, detectar los patrones únicos del hablante.

b) Comparación con Grabaciones anteriores: para encontrar las consistencias y diferencias en términos de entonación, pronunciación, patrones de habla y estilo.

c) Análisis de Formantes: en donde se analiza los formantes son resonancias específicas que se encuentran en el habla humana y varían según el hablante.

d) Análisis de Prosodia: se buscan las variaciones en tono, ritmo y entonación en el habla.

e) Evaluación de Emociones y Expresiones: se analizan las expresiones y autenticidad del hablante.

f) Comparación con Otros Registros de Voz: se detectan inconsistencias en el habla, el contexto o el contenido.

g) Análisis de Ruido y Ambiente: se analiza si son coherentes los ruidos del ambiente.

h) Uso de Tecnología Especializada: se puede utilizar Software para medir las características acústicas de una grabación de voz. Por ejemplo: Pratt, Adobe Audio, etc.

i) Peritaje de Experto: Los forenses de audio con experiencia pueden brindar testimonio experto en casos legales, explicando sus análisis y conclusiones a los tribunales.

En conclusión, un breve análisis me conduce a inferir que, al menos, por el elemento que revela la muletilla “¿No?”, además del ruido en el ambiente (el cuál habría que aislar), en mi criterio somero, diría que no es un audio generado por una IA generativa; dado que, en los múltiples ejercicios de voces sintéticas, esa muletilla no es posible de generar, ya que la IA se destaca por ser clara.

A mi consideración, este caso es apenas una muestra de lo que la autoridad electoral podría enfrentar en los siguientes meses, y sobre lo que tendrá que indagar con relación a la verdad sobre cada asunto. Así mismo, se levantan cuestionamientos interesantes sobre si se deben regular a las redes sociales y a los generadores de contenido sobre estos temas a través del procedimiento especial sancionador. Es decir, ¿tal como se regula radio y televisión, deberían, entonces, regularse las redes sociales en difusión de propaganda calumniosa y actos anticipados de precampaña y campaña electoral? No pueden ahondarse estos cuestionamientos en este breve artículo, pero que resultan por demás interesantes de desarrollar en la actualidad.

Sin embargo, si sostengo mi hipótesis de que la autoridad electoral tiene que desarrollar una oficina para detectar y analizar este tipo de casos, me parece que el grupo de trabajo debería estar constituido por un equipo transdiciplinario de expertos en análisis de audio y video; personal que haga seguimiento a las campañas en redes sociales y abogados en materia electoral.

Formación electrónica: Yuri López Bustillos, BJV
Incorporación a la plataforma OJS, Revistas del IIJ: Ignacio Trujillo Guerrero