Les stars de l’âge d’or d’Hollywood renaissent grâce à des accords de clonage de voix par IA de célébrités, signe de la façon dont certaines des Les inquiétudes liées au « Far West » Les problèmes d’usurpation d’identité d’IA non autorisée sont traités par de nouveaux modèles commerciaux.
ElevenLabs, une start-up spécialisée dans les technologies audio financée par des sociétés de capital-risque telles qu’Andreessen Horowitz et Sequoia, a signé plusieurs accords avec les successions d’acteurs légendaires pour ses Voix iconiques Un outil qui permet aux utilisateurs de se faire lire des voix générées par l’IA via une application de livres audio. Parmi les stars figurent Burt Reynolds, Judy Garland, James Dean et Sir Laurence Olivier.
ElevenLabs, qui a été lancé en 2023, crée des fichiers audio pour des livres et des articles de presse, des personnages de jeux vidéo, des films en préproduction, des médias sociaux et des publicités. L’entreprise travaille déjà avec des éditeurs tels que le New York Times et le Washington Post et, plus tôt cette année, elle a été sélectionnée par Disney pour rejoindre son programme d’accélération.
« Il faut environ 30 minutes d’audio de haute qualité pour créer un clone vocal professionnel », explique Sam Sklar, membre de l’équipe de développement d’ElevenLabs, et les voix sont générées à partir du catalogue de la célébrité. Une fois créée, elle peut être utilisée pour lire du texte (articles, PDF, ePubs, newsletters ou autre contenu textuel). Cependant, la voix et le contenu ne peuvent pas être exportés, toute l’écoute étant effectuée dans une application de lecture.
Un utilisateur pourrait, par exemple, avoir des articles racontés par James Dean dans l’application, mais les utilisateurs ne peuvent pas accéder aux voix de tout contenu qui ne figure pas déjà dans l’application.
Ce type d’accord pourrait aider à fixer les limites d’un avenir dans lequel le contenu vocal généré par l’IA sera moins controversé et davantage un terrain contrôlé et organisé. Google Play et Apple Books utiliser des voix générées par l’IA dans une certaine mesure déjà, même si de nombreux obstacles empêchent de recréer le rythme, l’intonation et l’émotion de la voix humaine.
L’industrie de l’IA a été en proie à des inquiétudes concernant l’utilisation de voix de célébrités, OpenAI ayant fait volte-face en mai après que l’actrice Scarlett Johansson a accusé l’entreprise de lui arracher la voix après avoir rejeté les offres de licence.
« Nous sommes très conscients des risques associés aux médias synthétiques et prenons très au sérieux l’utilisation sûre de nos outils », a déclaré Sklar. Les mesures de protection comprennent la modération active du contenu, la responsabilité pouvant être sanctionnée par des interdictions et des dispositions spéciales pour protéger l’impact des médias synthétiques. La voix de l’IA pour les élections de 2024.
Parmi la génération actuelle d’acteurs, une anxiété importante subsiste quant à l’utilisation de l’IA pour générer du contenu vocal. Les acteurs de doublage pour jeux vidéo ont soulevé des inquiétudes, et l’année dernière Grève du cinéma et de la télévision Cette tendance trouve ses racines dans les inquiétudes suscitées par l’utilisation de l’IA. L’utilisation de voix emblématiques vendues par les sociétés immobilières est un créneau de marché qui permet potentiellement d’éviter ces écueils, en représentant une nouvelle source de revenus provenant de l’IA plutôt qu’une source de revenus perdue à cause de l’IA.
L’utilisation de voix de célébrités ressemblant à celles des autres est un problème qui existe avant l’IA, comme le cas de 1988 Frito Lay utilise une imitation de Tom Waits dans leurs publicités, et un autre cas Waits en 2007après que Waits lui-même ait longtemps refusé des contrats publicitaires. L’IA présente un chemin plus facile pour créer des sons similaires, et des poursuites judiciaires récentes ont été intentées contre la startup d’IA Lovo pour utilisation prétendument inappropriée et non rémunérée L’utilisation de voix artificielles par des acteurs pour générer ses voix IA nous rappelle que le monde de la génération de voix IA restera probablement dans une certaine mesure un monde compliqué et litigieux. (Lovo a nié les allégations de la plainte et a également souligné un modèle de partage des revenus qu’elle propose aux acteurs pour les voix clonées.)
Il est difficile d’évaluer les protections en vigueur sans examiner le langage spécifique des contrats d’IconicVoices, a déclaré Steve Cohen, associé chez Pollock & Cohen qui représente les acteurs de doublage dans une affaire sans rapport. procès alléguant un clonage de voix sans autorisation.
ElevenLabs souligne la manière dont son outil IconicVoices obtient les autorisations et organise l’utilisation des voix.
« Donner la permission d’utiliser sa voix est l’un des principes fondamentaux », a déclaré Cohen. « Je pense que les facteurs clés sont la permission, la rémunération et le contrôle. »
De nouvelles lois plus claires pourraient également dissuader les personnes tentées de s’approprier une voix de manière inappropriée, « pas pour les méchants endurcis, mais pour les cas extrêmes », a déclaré Cohen. Mais, citant Bette Davis dans « All About Eve », il a ajouté : « Attachez vos ceintures, ça va être un parcours mouvementé. »
Le réalisme des voix clonées est également un problème en constante évolution. De nombreux experts affirment que, comme l’IA ne « sait » pas ce qu’elle dit, la qualité des performances est limitée. Sklar a déclaré que le dernier niveau de qualité vocale d’ElevenLabs est impossible à distinguer de la parole humaine réelle. « Les outils de synthèse vocale d’ElevenLabs peuvent comprendre le contexte des mots », a-t-il déclaré.
L’IA n’est aussi bonne que les modèles sur lesquels elle est formée, et les ensembles de données vocales des acteurs font partie du processus.
« Les modèles neuronaux tirent leurs capacités de l’imitation/mémorisation des nuances et des modèles présents dans leurs données d’entraînement », a déclaré Nauman Dawalatabad, postdoctorant au laboratoire d’informatique et d’intelligence artificielle du MIT, qui a mené des recherches approfondies sur la génération de voix par IA. « La qualité et la diversité des données d’entraînement influencent considérablement les performances du modèle. »
La voix des stars de cinéma pourrait contribuer à l’imitation et à l’apprentissage de l’IA en fournissant le type de « données vocales de haute qualité pour la formation et le réglage fin de grands modèles » qui, selon Dawalatabad, sont essentiels au processus. Mais il a exprimé des réserves quant au fait que « la voix humaine » soit le bon test pour le domaine de la voix de l’IA, car cela pourrait renforcer une relation antagoniste entre les voix humaines et synthétiques.
Les acteurs de la voix restent divisés sur la technologie, certains refusant d’envisager des accords, mais d’autres affirmant que les opportunités de cloner leurs voix pour une production plus rapide et moins chère sur certaines formes de livres audio ne peuvent être ignorées. « L’IA peut aider les flux de travail. L’IA n’est pas un nouvel outil pour les talents de la voix, les producteurs et les éditeurs, dont beaucoup l’utilisent pour améliorer leur contrôle qualité en post-production », a déclaré Michele Cobb, directrice exécutive de l’Audio Publishers Association, à CNBC l’année dernière.
Les modèles génératifs récents ont montré des progrès substantiels par rapport aux itérations précédentes, ce qui rend de plus en plus difficile la distinction entre les voix fausses et authentiques à l’oreille seule, selon Dawalatabad. L’attribution de licences vocales à l’IA pourrait alléger la charge de travail des acteurs de doublage, a-t-il ajouté, sans les supplanter, car ils « interviennent dans le processus en se concentrant sur la correction ou l’amélioration d’aspects ineffables tels que l’intonation, la chaleur et l’emphase, qui présentent encore des défis ».