Voces sin rostro. Los retos de la inteligencia artificial en la industria del doblaje
El artículo examina cómo las tecnologías contemporáneas de síntesis de voz tensionan las categorías jurídicas tradicionales aplicables a la voz humana y el doblaje, particularmente en el régimen de derechos de autor, derechos conexos y derechos de la personalidad. A través de una aproximación jurídico-dogmática apoyada en un análisis técnico accesible, se distinguen cuatro familias tecnológicas de generación y transformación vocal y se estudian casos relevantes que permiten identificar riesgos y vacíos regulatorios emergentes. Los resultados de esta revisión muestran tres retos jurídicos centrales: la fragilidad del consentimiento frente a la extracción y reutilización algorítmica de la voz; el desplazamiento laboral derivado de la sustitución técnica de equipos y actores de doblaje, y la incertidumbre sobre la titularidad y naturaleza jurídica del clon vocal producido por sistemas de inteligencia artificial. Asimismo, se plantean posibles principios que podrían guiar respuestas regulatorias a dichos retos.
Detalles del artículo
Uso de licencias Creative Commons (CC)
Todos los textos publicados por el Boletín Mexicano de Derecho Comparado sin excepción, se distribuyen amparados con la licencia CC BY-NC 4.0 Internacional, que permite a terceros utilizar lo publicado, siempre que mencionen la autoría del trabajo y la primera publicación en esta revista. No se permite utilizar el material con fines comerciales.
Derechos de autoras o autores
De acuerdo con la legislación vigente de derechos de autor el Boletín Mexicano de Derecho Comparado reconoce y respeta el derecho moral de las autoras o autores, así como la titularidad del derecho patrimonial, el cual será transferido —de forma no exclusiva— al Boletín para permitir su difusión legal en acceso abierto.
Autoras o autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en el Boletín Mexicano de Derecho Comparado (por ejemplo, incluirlo en un repositorio institucional o darlo a conocer en otros medios en papel o electrónicos), siempre que se indique clara y explícitamente que el trabajo se publicó por primera vez en este Boletín.
Para todo lo anterior, deben remitir la carta de transmisión de derechos patrimoniales de la primera publicación, debidamente requisitada y firmada por las autoras o autores. Este formato debe ser remitido en PDF a través de la plataforma OJS.
Derechos de lectoras o lectores
Con base en los principios de acceso abierto las lectoras o lectores de la revista tienen derecho a la libre lectura, impresión y distribución de los contenidos del Boletín por cualquier medio, de manera inmediata a la publicación en línea de los contenidos. El único requisito para esto es que siempre se indique clara y explícitamente que el trabajo se publicó por primera vez en el Boletín Mexicano de Derecho Comparado y se cite de manera correcta la fuente incluyendo el DOI correspondiente.

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Citas
Agiomyrgiannakis, Y. (2015). Vocaine: The vocoder and applications in speech synthesis. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5695-5699). IEEE. https://ieeexplore.ieee.org/document/43336 DOI: https://doi.org/10.1109/ICASSP.2015.7178768
Alpaydin, E. (2014). Introduction to machine learning (3a. ed.). MIT Press.
Altunin, Y. (2023, enero 24). “Fall” shows us why AI-powered tools are crucial for the film industry to succeed internationally. No Film School. https://nofilmschool.com/2023/01/fall-shows-us-why-ai-powered-tools-are-crucial-film-industry
Ávila, A. (1997). El doblaje. Cátedra. https://archive.org/details/eldoblaje00avil
Bernabo, L. (2025). How, when, and why to use AI: Strategic uses of professional perceptions and industry lore in the dubbing industry. International Journal of Communication, 19, 698-715. http://ijoc.org/
Bhandari, R., y Bhandari, S. (2025). Artificial intelligence: Understanding deepfakes. EDPACS, 61(1), 1-11. https://doi.org/10.1080/07366981.2025.2484863 DOI: https://doi.org/10.1080/07366981.2025.2484863
Biometric Information Privacy Act. (2008). 740 Ill. Comp. Stat. 14/10.
Bosseaux, C. (2018). Dubbing. En L. Pérez-González (Ed.), The Routledge handbook of audiovisual translation studies (pp. 1-32). Routledge. https://www.pure.ed.ac.uk/ws/portalfiles/portal/43181951/Bosseaux2017Dubbing.pdf
Cambridge Dictionary. (s. f.). Token. Cambridge Dictionary Online. https://dictionary.cambridge.org/dictionary/english/token
Cao, Y. (2024, abril 24). AI-generated voice mimicry infringes on rights. China Daily. https://english.bjinternetcourt.gov.cn/2024-04/24/c_706.htm
Cavarero, A. (2005). For more than one voice: Toward a philosophy of vocal expression. Stanford University Press. DOI: https://doi.org/10.1515/9780804767309
Chaume, F. (2005). Estrategias y técnicas de traducción para el ajuste o adaptación en el doblaje. En R. Merino, J. M. Santamaría y E. Pajares (Eds.), Trasvases culturales: literatura, cine, traducción 4 (pp. 145-153). Universidad del País Vasco. https://www.researchgate.net/publication/361101428
Chaume, F. (2012). The turn of audiovisual translation: New audiences and new technologies. Translation Spaces, 1(2), 107-125. https://doi.org/10.1075/ts.2.06cha DOI: https://doi.org/10.1075/ts.2.06cha
Chen, C. J. (2016). Elements of human voice. World Scientific Publishing. DOI: https://doi.org/10.1142/9891
Coburn, C., Williams, K., y Stroud, S. R. (2022). Enhanced realism or A.I.-generated illusion? Synthetic voice in the documentary film Roadrunner. Journal of Media Ethics, 37(4), 1-3. https://doi.org/10.1080/23736992.2022.2113883 DOI: https://doi.org/10.1080/23736992.2022.2113883
Código Civil y Comercial de la Nación. (2015). República Argentina. https://servicios.infoleg.gob.ar/infolegInternet/anexos/235000-239999/235975/texact.htm
Cong, G., Li, L., Pan, J., Zhang, Z., Beheshti, A., Van den Hengel, A., Qi, Y., y Huang, Q. (2025). FlowDubber: Movie dubbing with LLM-based semantic-aware learning and flow matching based voice enhancing. arXiv. https://arxiv.org/abs/2505.01263 DOI: https://doi.org/10.1145/3746027.3754734
Convención de Roma. (1961). Convención sobre la protección de los artistas intérpretes o ejecutantes, los productores de fonogramas y los organismos de radiodifusión. https://www.wipo.int/treaties/es/text.jsp?file_id=289795
Cultural Intellectual Property Rights Initiative. (s. f.). The 3Cs Rule: Consent, Credit, Compensation. CIPRI. https://www.culturalintellectualproperty.com/the-3cs
Dudley, H. W. (1939). Signal transmission (U.S. Patent No. 2,151,091). U.S. Patent and Trademark Office. https://patents.google.com/patent/US2151091A
Durand, C. (2020). Tecnofeudalismo: la nueva gleba digital. Viento Sur, (173), 51-60. https://biblioteca.hegoa.ehu.eus/downloads/21067/%2Fsystem%2Fpdf%2F4360%2FP-VIENTO_SUR_173.5.pdf
Flawless AI. (2022). Fall [visual dubbing demonstration]. Flawless AI. https://www.flawlessai.com
Fleischer, M. (2022). La precarización en la industria del doblaje. ETERDigital. https://eterdigital.com.ar/la-precarizacion-en-la-industria-del-doblaje/
Flores Ávalos, E. L., y Pérez García, X. (2019). Protección al derecho a la imagen y a la voz ante las tecnologías de la información y comunicación. Estudios en Derecho a la Información, (7), e13015. https://revistas.juridicas.unam.mx/index.php/derecho-informacion/article/view/13015/14550 DOI: https://doi.org/10.22201/iij.25940082e.2019.7.13015
Franganillo, J. (2023). La inteligencia artificial generativa y su impacto en la creación de contenidos mediáticos. Methaodos. Revista de Ciencias Sociales, 11(2), m231102a10. https://doi.org/10.17502/mrcs.v11i2.710 DOI: https://doi.org/10.17502/mrcs.v11i2.710
Fulop, S. A., y Fitz, K. (2006). A spectrogram for the twenty-first century. Acoustics Today, 2(3), 24-32. DOI: https://doi.org/10.1121/1.2961138
Fundación AISGE. (2024, enero 31). 5o. Informe sociolaboral de la Fundación AISGE, 2023/24: Contenidos íntegros. https://www.aisge.es/estudio-sociolaboral-2023-de-la-fundacion-aisge-contenidos-integros
Gelfand, S. A. (2017). Hearing: An introduction to psychological and physiological acoustics (6a. ed.). CRC Press. https://doi.org/10.1201/9781315154718 DOI: https://doi.org/10.1201/9781315154718
Genelza, G. G. (2024). A systematic literature review on AI voice cloning generator: A game-changer or a threat? Journal of Emerging Technologies, 4(2), e587791. https://doi.org/10.57040/ag587791
Gilman, B., y Willick, D. (2025). Generative AI: Cultural shift towards the machine (Honors thesis, Loyola Marymount University). Digital Commons @ LMU. https://digitalcommons.lmu.edu/honors-thesis/587
Goodfellow, I., Bengio, Y., y Courville, A. (2016). Deep learning. MIT Press. https://www.deeplearningbook.org
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., y Bengio, Y. (2014). Generative adversarial nets (arXiv:1406.2661v1). arXiv. https://arxiv.org/abs/1406.2661
Hernández Reséndiz, A. E. (1996). Problemas de derechos de autor en el doblaje de películas (Tesis de licenciatura). Universidad Nacional Autónoma de México. https://ru.dgb.unam.mx/bitstream/20.500.14330/TES01000242701/3/0242701.pdf
Hu, C., Tan, M., Yang, Z., Zhang, J., Ren, J., y Zhao, D. (2021, December). Neural Dubber: Dubbing for videos according to scripts. Advances in Neural Information Processing Systems (NeurIPS), 35. https://arxiv.org/pdf/2110.08243
Indira Gandhi National Open University. (s. f.). Communication of visual perception and its media: Dubbing, subtitling and translation (Unit 10, Module MTT-16: Translation Studies). IGNOU. https://egyankosh.ac.in/bitstream/123456789/93707/1/Unit-10.pdf
Ivarsson, J. (1998). Subtitling. TransEdit HB. https://archive.org/details/subtitling0000ivar/page/n3/mode/2up
Jasserand, C. (2016). Legal nature of biometric data: From “generic” personal data to sensitive data (University of Groningen Faculty of Law Research Paper Series No. 24/2018). Universidad de Groningen. https://ssrn.com/abstract=3230342
Jia, Y., Zhang, Y., Weiss, R. J., Wang, Q., Shen, J., Ren, F., Chen, Z., Nguyen, P., Pang, R., Lopez Moreno, I., y Wu, Y. (2019). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. arXiv. https://arxiv.org/abs/1806.04558
Jurafsky, D., y Martin, J. H. (2024). Appendix A: Hidden Markov Models. En Speech and language processing (Borrador, enero 12 de 2025). https://web.stanford.edu/~jurafsky/slp3/A.pdf
Jurafsky, D., y Martin, J. H. (2023). Speech and language processing (3a. ed.; borrador). https://web.stanford.edu/~jurafsky/slp3/
Jurcys, P., Fenwick, M., y Liaudanskas, A. (2024, agosto 24). Voice cloning in an age of generative AI: Mapping the limits of the law and principles for a new social contract with technology. SSRN. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4850866
Kadam, S., Chougule, A., Kharat, S., Chavan, P., y Patil, M. (2024). ReVoice: A neural network based voice cloning system. En 2024 IEEE 9th International Conference for Convergence in Technology (I2CT) (pp. 1-6). IEEE. https://ieeexplore.ieee.org/document/10543448 DOI: https://doi.org/10.1109/I2CT61223.2024.10543448
Kameoka, H., Kaneko, T., Tanaka, K., y Hojo, N. (2018). StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks. arXiv. https://arxiv.org/abs/1806.02169 DOI: https://doi.org/10.1109/SLT.2018.8639535
Kyi, L., Mahuli, A., Silberman, M. S., Binns, R., Zhao, J., y Biega, A. J. (2025). Governance of generative AI in creative work: Consent, credit, compensation, and beyond. En Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI’25). ACM. DOI: https://doi.org/10.1145/3706598.3713799
Ley núm. 19.628 sobre protección de la vida privada. (2021). República de Chile. https://www.bcn.cl/leychile/navegar?idNorma=141599
Ley Orgánica 1/1982, de 5 de mayo, de protección civil del derecho al honor, a la intimidad personal y familiar y a la propia imagen (1982). Boletín Oficial del Estado. https://www.boe.es/buscar/act.php?id=BOE-A-1982-11196
Li, Y. A., Zare, A., y Mesgarani, N. (2021). StarGANv2-VC: A diverse, unsupervised, non-parallel framework for natural-sounding voice conversion. arXiv. https://arxiv.org/abs/2107.10934 DOI: https://doi.org/10.21437/Interspeech.2021-319
Luyken, G.-M. (1991). Overcoming language barriers in television: Dubbing and subtitling for the European audience. European Institute for the Media. https://archive.org/details/overcominglangua0000luyk/page/74/mode/2up
Lipszyc, D. (2017). Derecho de autor y derechos conexos (Edición digital). CERLALC.
Martínez, X. (2004). Film dubbing: Its process and translation. En P. Orero (Ed.), Topics in audiovisual translation (pp. 3-8). John Benjamins Publishing Company. https://api.pageplace.de/preview/DT0400.9789027295125_A24764306/preview-9789027295125_A24764306.pdf
Magaña Rufino, J. M. (2019). Panorama del derecho de autor en México. Reus.
Martínez, X. (2004). Film dubbing. En P. Orero (Ed.), Topics in audiovisual translation (pp. 3-8). John Benjamins Publishing Company. https://doi.org/10.1075/btl.56.03mar DOI: https://doi.org/10.1075/btl.56.03mar
Matamala, A. (2010). Translations for dubbing as dynamic texts: Strategies in film synchronisation. Babel, 56(2), 101-118. https://doi.org/10.1075/babel.56.2.01mat DOI: https://doi.org/10.1075/babel.56.2.01mat
McMahon, L. (2025, mayo 20). Fortnite faces complaint from actors’ union over AI Darth Vader. BBC News. https://www.bbc.com/news/articles/cn844l3eznqo
Morgen, A. (Director). (2022). The Andy Warhol Diaries [Serie documental]. Netflix.
Nájar, S. (2007). El doblaje de voz: orígenes, personajes y empresas en México. https://dn721804.ca.archive.org/0/items/salvador-najar-el-doblaje-de-voz-2015-vol.-i-y-ii/Salvador%20Najar%20-%20El%20doblaje%20de%20voz%20%282015%29%20-%20Vol.%20I%20y%20II%20-%20ASIN%20B010UP2LHE%20%26%20B0116VY5IO.pdf
Niroula, B. (2023, septiembre 12). The impact of AI on the future of voice acting [preimpresión]. OSF Preprints. https://doi.org/10.31219/osf.io/wn5y3 DOI: https://doi.org/10.31219/osf.io/wn5y3
Nogueira Alcalá, H. (2007). El derecho a la propia imagen como derecho fundamental implícito: Fundamentación y caracterización. Ius et Praxis, 13(2), 245-285. https://www.scielo.cl/pdf/iusetp/v13n2/art11.pdf DOI: https://doi.org/10.4067/S0718-00122007000200011
Ordelín Font, J. L. (2023). El derecho a la imagen como derecho de la personalidad. Revista de la Escuela Federal de Formación Judicial, (53), 238-250. https://biblio.juridicas.unam.mx/bjv/handle/123456789/41654
Organización Mundial de la Propiedad Intelectual. (2016). Principios básicos del derecho de autor y los derechos conexos (2a. ed.). https://www.wipo.int/edocs/pubdocs/es/wipo_pub_909_2016.pdf
Palencia Villa, R. M. (2000). El doblaje cinematográfico: factores de eficacia desde la recepción. Revista Latina de Comunicación Social, (30), 5-11. https://ddd.uab.cat/pub/artpub/2000/167448/revlatcom_a2000m6n30p5.pdf DOI: https://doi.org/10.4185/RLCS-2000/04
Palencia Villa, R. M. (2002). La influencia del doblaje audiovisual en la percepción de los personajes (Tesis doctoral). Universitat Autònoma de Barcelona. https://www.tdx.cat/bitstream/handle/10803/4105/rmpv1de6.pdf?sequence=1
Parra Trujillo, E. de la. (2015). Derechos de los autores, artistas e inventores. Instituto Nacional de Estudios Históricos de las Revoluciones de México; Universidad Nacional Autónoma de México. https://biblio.juridicas.unam.mx/bjv/detalle-libro/4019-derechos-de-los-autores-artistas-e-inventores
Parssinen, K. (2007). Multilingual text-to-speech system for mobile devices: Development and applications (Doctoral dissertation). Tampere University of Technology.
Pavis, M., Tulti, H., y Pye, J. (2019). Fair Pay/Play in the UK voice-over industries: A survey of 200+ voice-overs (Report núm. 1). The Centre for Science, Culture and the Law at Exeter (SCuLE), University of Exeter. https://doi.org/10.5281/zenodo.3340920
Pizzolo, C. (2025). AI, biometric data, and the effective protection of fundamental rights in the recent ECJ case-law. Unione Europea e Diritti, (1), 1-13.
Pourpanah, F., Abdar, M., Luo, Y., Zhou, X., Wang, R., Lim, C. P., Wang, X.-Z., y Wu, Q. M. J. (2022). A review of generalized zero-shot learning methods. arXiv. https://arxiv.org/abs/2011.08641 DOI: https://doi.org/10.1109/TPAMI.2022.3191696
Prajwal, K. R., Mukhopadhyay, R., Namboodiri, V. P., y Jawahar, C. V. (2020). A lip sync expert is all you need for speech to lip generation in the wild. arXiv. https://arxiv.org/abs/2008.10010 DOI: https://doi.org/10.1145/3394171.3413532
Rangel Medina, D. (1998). Los derechos de autor. En J. C. Fernández Villavicencio (Coord.), Temas de derecho de autor y derechos conexos (pp. 11-29). Universidad Nacional Autónoma de México. http://ru.juridicas.unam.mx/xmlui/handle/123456789/24887
Resemble AI. (2022). Resemble AI partners with Netflix for The Andy Warhol Diaries. https://www.resemble.ai
Resemble AI. (2022, marzo 9). How Resemble AI created Andy Warhol docu-series narration using 3 minutes of original voice recordings. https://www.resemble.ai/andy-warhol/
Respeecher. (2024, junio 12). Respeecher’s AI voice cloning enables Aloe Blacc’s multilingual tribute to Avicii. https://www.respeecher.com/case-studies/aloe-blacc-voice-cloning-singing-multilanguage
Respeecher. (2024). Wake Me Up (multilingual AI-cloned performance) [Video musical]. https://www.respeecher.com
Rosner, H. (2021, julio 17). The ethics of a deepfake Anthony Bourdain voice. The New Yorker. https://www.newyorker.com/culture/annals-of-gastronomy/the-ethics-of-a-deepfake-anthony-bourdain-voice
Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Zhang, Y., Wang, Y., Skerry-Ryan, R. J., Saurous, R. A., Agiomyrgiannakis, Y., y Wu, Y. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv. https://arxiv.org/abs/1712.05884 DOI: https://doi.org/10.1109/ICASSP.2018.8461368
Sisman, B., Yamagishi, J., King, S., y Li, H. (2020). An overview of voice conversion and its challenges: From statistical modeling to deep learning. arXiv. https://arxiv.org/abs/2008.03648
Styger, T., y Keller, E. (1994). Formant synthesis. En E. Keller (Ed.), Fundamentals of speech synthesis and speech recognition: Basic concepts, state of the art, and future challenges (pp. 109-128). John Wiley. https://www.erickeller.ch/pdf.files/Styger-Keller-94-FundVol.pdf
Tesis: 1a./J. 166/2023 (11a.). Semanario Judicial de la Federación, Gaceta, Undécima Época, 1594. https://sjf2.scjn.gob.mx/detalle/tesis/2027523
Thomas, S. (2024). AI and actors: Ethical challenges, cultural narratives and industry pathways in synthetic media performance. Emerging Media, 2(3), 523-546. https://doi.org/10.1177/27523543241289108 DOI: https://doi.org/10.1177/27523543241289108
Toda, F. (2005). Subtitulado y doblaje: Traducción especial(izada). Quaderns. Revista de Traducción, (12), 119-132. https://ddd.uab.cat/pub/quaderns/2005/quaderns_a2005n12p119.pdf
Tribunal judiciaire de Paris. (2023). Décision núm. 21/14909.
Trujillo Cabrera, C. (2024). El derecho a la propia imagen (y a la voz) frente a la inteligencia artificial. InDret, 1(2024), 74-112. https://raco.cat/index.php/InDret/article/view/425422/519965 DOI: https://doi.org/10.31009/InDret.2024.i1.02
Unión de Actores y Actrices. (s. f.). El 73 % de los actores españoles no pueden vivir de su trabajo, según informa AISGE. https://www.uniondeactores.com/index.php/noticias/4629-el-73-de-los-actores-espanoles-no-pueden-vivir-de-su-trabajo-segun-informa-aisge
Van Den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., y Kavukcuoglu, K. (2016). WaveNet: A generative model for raw audio. arXiv. https://arxiv.org/abs/1609.03499
Van Den Oord, A., Vinyals, O., y Kavukcuoglu, K. (2018). Neural discrete representation learning. arXiv. https://arxiv.org/abs/1711.00937
Varoufakis, Y. (2024). Tecnofeudalismo: El sigiloso sucesor del capitalismo (M. Valdivieso, Trad.) [Libro electrónico]. Deusto. (Publicado originalmente en 2023). https://ia803407.us.archive.org/26/items/tecnofeudalismo-yanis-varoufakis/Tecnofeudalismo_Yanis_Varoufakis.pdf
Wang, Y., Skerry-Ryan, R. J., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z., Bengio, S., Le, Q., Agiomyrgiannakis, Y., Clark, R., y Saurous, R. A. (2017). Tacotron: Towards end-to-end speech synthesis. arXiv. https://arxiv.org/abs/1703.10135 DOI: https://doi.org/10.21437/Interspeech.2017-1452
Zabalbeascoa, P. (1997). Dubbing and the nonverbal dimension of translation. En F. Poyatos (Ed.), Nonverbal communication and translation (pp. 327-342). John Benjamins Publishing Company. DOI: https://doi.org/10.1075/btl.17.26zab
Zen, H., Oura, K., Nose, T., Yamagishi, J., Sako, S., Toda, T., Masuko, T., Black, A. W., y Tokuda, K. (2009). Recent development of the HMM-based speech synthesis system (HTS). En Proceedings of the 2009 Asia-Pacific Signal and Information Processing Association (APSIPA), Sapporo, Japan. https://www.research.ed.ac.uk/en/publications/a01bb759-bbbc-46b4-b4ab-10dd3e699ca1
Zhang, Z., Zhou, L., Wang, C., Chen, S., Chen, Z., Liu, Y., Liu, H., Wang, H., Li, J., Lei, H., Zhao, S., y Wei, F. (2023). Speak foreign languages with your own voice: Cross-lingual neural codec language modeling. arXiv. https://arxiv.org/abs/2303.03926
Zheng, J., Chen, Z., Ding, C., y Di, X. (2025). DeepDubber-V1: Towards high quality and dialogue, narration, monologue adaptive movie dubbing via multi-modal chain-of-thoughts reasoning guidance. arXiv. https://arxiv.org/abs/2503.23660








