Generación de audio por inteligencia artificial: modelos y plataformas

En la era actual, la inteligencia artificial (IA) está revolucionando diversos campos, incluyendo el arte y la escritura. Sin embargo, también está ocurriendo un emocionante desarrollo en el entorno de la IA generativa: la generación de audio.

Índice
  1. ¿Cómo funcionan los modelos de IA de texto a audio?
    1. Modelos de IA de texto a audio
  2. Modelos de audio a texto
  3. Modelos de audio a audio

¿Cómo funcionan los modelos de IA de texto a audio?

Un modelo de IA de texto a audio toma texto como entrada y genera contenido de audio como resultado. La salida puede variar desde discurso hasta música.

La iteración más común es el texto a habla, también conocido como TTS (Text-to-Speech). Este se utiliza en el desarrollo de asistentes de voz como Siri o Alexa. El TTS puede utilizarse para crear contenido hablado en varios idiomas.

Modelos de IA de texto a audio

MusicLM

Creadores: Google

Publicado por primera vez: Enero 2023

MusicLM puede generar música de alta fidelidad a partir de entradas de texto. Los usuarios pueden escribir una indicación como un riff de guitarra con trompetas de aire sonando a tiempo y el modelo generará una salida musical.

MusicLM puede generar música a una frecuencia de muestreo constante de 24 kHz durante varios minutos.

El modelo funciona tomando fragmentos de audio y mapeándolos en una base de datos de palabras que describen los sonidos musicales. Luego, toma el texto o la entrada de audio del usuario y genera el sonido resultante.

Echa un vistazo a los ejemplos de MusicLM

Lee más sobre MusicLM en AI Business

AudioPaLM

Creadores: Google

Publicado por primera vez: Junio 2023

AudioPaLM puede generar texto y habla para reconocimiento de voz y traducción de habla a habla.

Para crear AudioPaLM, Google combinó el modelo de generación de audio AudioPaLM con su modelo de lenguaje de gran tamaño, PaLM-2, para crear un modelo diseñado para aprovechar mayores cantidades de datos de entrenamiento de texto para ayudar con tareas de habla.

AudioPaLM también se puede ajustar para consumir y producir audio tokenizado en una mezcla de tareas de habla a texto. El modelo también puede realizar traducción de habla a texto sin entrenamiento para idiomas que no se encuentran en su entrenamiento, simplemente basándose en una breve indicación hablada.

Echa un vistazo al artículo de AudioPaLM

Lee más sobre AudioPaLM en AI Business

Voicebox

Creadores: Meta, FAIR

Publicado por primera vez: Junio 2023

Voicebox es un modelo de IA generativa que puede crear audio a partir de clips existentes de solo dos segundos de duración. Voicebox aprende tanto del audio sin procesar como de una transcripción acompañante para generar audio.

Voicebox puede adaptarse al estilo de generación de texto a habla y también se puede usar para editar audio, como eliminar ruidos de fondo de un perro ladrando o bocinas de coches a lo lejos.

Lee más sobre Voicebox en AI Business

Make-An-Audio

Creadores: ByteDance - investigadores del laboratorio de IA de la empresa matriz de TikTok

Publicado por primera vez: Enero 2023

Make-An-Audio es un modelo de difusión mejorada por indicación capaz de generar audio a partir de indicaciones de texto.

El modelo se puede utilizar para crear fragmentos de audio personalizados a partir de entradas de lenguaje natural y audio existente. También se puede aplicar a la generación de audio a partir de video.

Lee el artículo de Make-An-Audio

Plataformas de IA de texto a audio

PlayHT

PlayHT ofrece una variedad de herramientas de texto a audio, incluyendo generación de voz para podcasts y clonación de voz.

La startup detrás de esto busca empoderar a las empresas para crear contenido de habla natural utilizando voces de IA de última generación. Empresas como Amazon, Samsung y Verizon han utilizado PlayHT para generar contenido de audio.

Prueba la tecnología de texto a habla de PlayHT

Murf.ai

Murf.ai ofrece herramientas de texto a audio para fines corporativos o de entretenimiento. Su estudio incluye texto a habla para anuncios, lecciones de educación o presentaciones, entre otros.

Empresas como Nasdaq, Oracle y Toyota se encuentran entre los usuarios de Murf, y su plan empresarial incluye un espacio de trabajo para compartir proyectos para que los equipos vean o editen proyectos de audio.

Resemble.ai

Las herramientas de texto a audio en Resemble.ai permiten a los usuarios crear locuciones realistas. Resemble también ofrece clonación de voz y herramientas para localizar contenido de audio en varios idiomas.

Entre los usuarios de Resemble.ai se encuentran Netflix, el Grupo del Banco Mundial y Boingo.

Wellsaid Labs

Wellsaid Labs, con sede en Seattle, ofrece servicios de texto a habla para locuciones. Ofrece una plataforma de estudio donde los usuarios pueden crear y personalizar voces para casos de uso específicos.

Entre los usuarios de Wellsaid se encuentran Boeing, Snowflake, Intel y Peloton.

Modelos de audio a texto

Whisper

Creadores: OpenAI

Publicado por primera vez: Septiembre 2022

Whisper es un sistema de reconocimiento de voz de código abierto. Entrenado con 680,000 horas de datos recopilados de la web, el modelo puede transcribir en varios idiomas.

Aproximadamente un tercio del audio utilizado para construir Whisper no es en inglés, según OpenAI. La compañía abrió el acceso al modelo para que los desarrolladores lo utilicen como base para construir aplicaciones.

Echa un vistazo al artículo de Whisper

VALL-E

Creadores: Microsoft

Publicado por primera vez: Enero 2023

VALL-E puede generar audio de voz a partir de muestras de solo tres segundos. VALL-E imita al hablante objetivo y cómo sonaría al hablar un texto deseado. También puede mantener la emoción del hablante en el audio de muestra.

También se puede utilizar para la síntesis de texto a habla con poca información previa y podría utilizarse para tareas como la edición de habla y la creación de contenido cuando se combina con otros modelos de IA generativos.

Echa un vistazo al artículo de VALL-E

Fairseq S2T

Publicado por primera vez: Octubre 2020

Fairseq S2T es un modelo seq2seq basado en Transformer diseñado para el reconocimiento automático de voz y la traducción de habla.

Fairseq S2T genera transcripciones y traducciones de forma autoregresiva. Utiliza un reductor de convolución para reducir significativamente la longitud de las entradas de habla antes de que se alimenten al codificador.

AudioCraft

Creadores: Meta

Publicado por primera vez: Agosto 2023

AudioCraft es una suite de modelos de texto a audio y música.

Incluye MusicGen, que genera música propiedad y con licencia de Meta a partir de indicaciones de texto; AudioGen, que genera efectos de sonido entrenados a partir de audio público; y EnCodec, que permite la generación de música de mayor calidad con menos artefactos.

Todos los modelos son de código abierto para investigadores y profesionales. Puedes acceder al código de AudioCraft en GitHub. Prueba las demos de MusicGen o escucha muestras de AudioGen. Lee el artículo de EnCodec y descarga el código.

Modelos de audio a audio

SepFormer

Publicado por primera vez: Octubre 2020

SepFormer es una red neuronal basada en Transformer para separación de habla. Puede separar múltiples discursos en una sola grabación.

AudioLM

Creadores: Google

Publicado por primera vez: Septiembre 2022

AudioLM es un modelo de generación de audio.

Puede generar habla semánticamente plausible a partir de una entrada de palabras habladas existentes mientras mantiene la identidad del hablante.

Plataformas de audio a audio

AssemblyAI

AssemblyAI ofrece modelos de IA listos para producción para reconocimiento de voz, resumen de habla y más. Entre sus ofertas se encuentra LeMUR, que ayuda a las empresas a construir aplicaciones de modelos de lenguaje grandes en datos hablados.

Speechmatics

La startup de reconocimiento de habla Speechmatics ofrece servicios de transcripción y traducción impulsados por IA que abarcan casi 50 idiomas. Su API permite a los usuarios enviar audio y recibir tanto la transcripción como la traducción para permitir que los usuarios empresariales abran sus productos o servicios a audiencias más amplias. Desarrolladores de videojuegos como Ubisoft, la consultora Deloitte y los fabricantes de chips Nvidia figuran como socios en su sitio web.

AWS Transcribe

Amazon Transcribe es un servicio de reconocimiento automático de voz de AWS diseñado para ayudar a los desarrolladores a agregar capacidad de texto a voz a sus aplicaciones.

Google Speech-to-Text

Speech-to-Text de Google Cloud se puede integrar en aplicaciones, lo que permite a los usuarios enviar audio y recibir una transcripción de texto.

Kaldi

Kaldi es la aplicación menos llamativa de esta lista, se encuentra en GitHub y está diseñada para investigadores de reconocimiento de habla.

Wav2Letter

Wav2letter de Meta es un reconocimiento automático de voz para investigadores y desarrolladores para transcribir habla.

Otter.ai

Otter.ai es una plataforma de transcripción impulsada por IA. Los usuarios pueden cargar o grabar audio y Otter generará una transcripción de texto.

Trint

Trint es un servicio de transcripción impulsado por IA donde los usuarios pueden obtener transcripciones a partir de entradas de audio. Entre sus cofundadores se encuentra el ex periodista de ABC Jeffrey Kofman, quien se desempeña como CEO de Trint.

Si quieres conocer otras notas parecidas a Generación de audio por inteligencia artificial: modelos y plataformas puedes visitar la categoría Inteligencia.

Subir