jueves, octubre 10

OpenAI lanza un dispositivo de audio capaz de clonar voces humanas

Medios relacionados – Noticias 24 horas

Clona de manera confiable la voz humana con esta cantidad de ancho de banda en solo 15 segundos. Esto es lo que representa la última arma de IA creada por OpenAI, la empresa que destruyó el mundo con ChatGPT, su programa de lenguaje generativo de IA.

“Contiene información preliminar y resultados de una vista anterior a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única pantalla de audio de 15 segundos para generar una conversación natural que suena muy original. Es indiscutible que un modelo pequeño con un espectáculo de sólo 15 segundos puede crear voces emocionalmente realistas”, dijo el director de la compañía, Sam Altman, en un comunicado.

Todo lo que tienes que hacer por el usuario es dibujar este espectáculo. Una vez que uses el programa Voice Engine, podrás leer el timbre y el tono de esa voz en cualquier texto que te resulte fácil. El texto no es seguro, debe estar en el mismo idioma. Un hispanohablante puede facilitar la visualización de su idioma para luego insertarlo en el programa que lee un texto en inglés, chino u otros idiomas con su voz.

También puedes usarlo directamente para traducir audio. Además, cuando se utiliza para traducir, Voice Engine preserva el acento nativo del discurso original: por ejemplo, al generar inglés con una muestra de audio de un hablante francés, produce una conversación de cien francos.

Uso restrictivo

Actualmente, la empresa prefiere lanzarse a pequeña escala para facilitar el acceso generalizado a los equipos, como hizo con ChatGPT, porque es consciente del riesgo de sustitución de identidades. Con el equipo, simplemente mantenlos durante 15 segundos para detenerte. hacerse con su voz.

«Estamos adoptando un enfoque cuidadoso e informado antes de una implementación más amplia debido a la capacidad de hacer un mal uso de las voces sintéticas», indica OpenAI. “Esperamos iniciar un diálogo sobre la exposición responsable a voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. En base a estas conversaciones y a los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si utilizar esta tecnología a gran escala y cómo hacerlo”, añade.

OpenAI considera que antes de generalizar el acceso a nuevos equipos es necesario tomar decisiones sobre una serie de aspectos. Por ejemplo, la autenticación por voz debería eliminarse gradualmente como medida de seguridad para acceder a cuentas bancarias y otra información sensible, ya que se supone que no es segura.

También consideramos necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es particularmente pronunciado en el caso de figuras públicas, incluidos los políticos.

Para él, también debemos enseñar al público a comprender las capacidades y limitaciones de las tecnologías de IA, incluida la capacidad de interactuar con contenidos de IA.

La otra propuesta sobre la mesa consiste en acelerar el desarrollo y adoptar técnicas para reconstruir el origen de los contenidos audiovisuales, de modo que queden siempre claros al interactuar con una persona real o con una IA.

“Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, porque en última instancia la implementaremos ampliamente o no. Esperamos seguir la participación en conversaciones sobre las respuestas y oportunidades de las voces sintéticas con formuladores de políticas, investigadores, desarrolladores y creativos”, concluye OpenAI.

En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo en lenguaje, sino también en generación de imágenes y videos. El mes pasado presenté Sora, una revolucionaria herramienta de vídeo que solo requería texto para crear un vídeo corto con el contenido y el estilo requeridos.

Noticias de interés – Colaboradores destacados