La transcripción manual de audios es un proceso lento, poco escalable y que muchas veces impide aprovechar información valiosa guardada en grabaciones de reuniones, clases, entrevistas o videos. Tess AI resuelve este reto con los AI Steps de Transcripción de Audio, una función poderosa que te permite automatizar todo el proceso, convirtiendo cualquier archivo de audio en texto de manera rápida y precisa.
Este artículo te guiará, paso a paso, en la creación de un agente de IA personalizado en el AI Studio, capaz de recibir un archivo de audio, transcribirlo y hasta realizar acciones después, como crear resúmenes o analizar el contenido.
Antes de empezar, es importante entender el concepto de AI Steps. Piensa en ellos como pasos o bloques de construcción de inteligencia artificial que puedes agregar a tu agente. Cada step está hecho para cumplir una tarea específica, como transcribir un audio, generar una imagen, analizar datos de una hoja de cálculo o integrarse con otros apps. Al juntar estos steps, creas flujos de trabajo automáticos e inteligentes, personalizados para lo que necesitas.
Vamos a armar un agente de ejemplo que transcriba la grabación de una clase y genere un resumen del contenido.
Paso 1: Accediendo al AI Studio
El AI Studio es el lugar donde creas y personalizas tus agentes de IA.
En el menú lateral izquierdo de la plataforma Tess AI, haz clic en el botón "AI Studio".
Luego, haz clic en el botón "Agregar Nuevo Agente" para empezar a crear.
Paso 2: Configurando el Agente y el Prompt
En esta pantalla vas a definir el comportamiento de tu agente. Para este ejemplo, vamos a dejar la configuración predeterminada de IA de Chat, que permite interactuar con el agente de manera conversacional.
El corazón de tu agente es el campo Mi Prompt. Aquí es donde le das instrucciones a la IA sobre su personalidad, objetivos y el formato de la respuesta que esperas. Un prompt bien hecho asegura resultados consistentes y de buena calidad.
Para nuestro ejemplo, vamos a usar la siguiente estructura:
# Persona
Eres un profesional de contenido especializado en transcribir y resumir grabaciones de clases para estudiantes. Tu lenguaje siempre debe ser objetivo y directo.
# Objetivo
Tu objetivo principal es analizar y transcribir el contenido de una grabación de clase proporcionada por el usuario y, a partir de la transcripción, crear un resumen conciso del material tratado.
# Output (Formato de Respuesta)
Debes entregar un resumen del contenido transcrito en un total de hasta 30 líneas. El resumen debe destacar los principales temas y conceptos de la clase.
# Reglas
- Jamás inventes información que no esté en la grabación.
- Si el usuario hace una pregunta sobre un tema que no se trató en la clase, indica que no tienes esa información.
Paso 3: Creando la Entrada de Usuario para el Archivo de Audio
Para que el agente pueda transcribir un audio, primero tiene que recibirlo. Vamos a hacer esto creando una "Entrada de Usuario".
Debajo del campo del prompt, haz clic en Entradas de Usuario.
Selecciona la opción Subida de archivo.
En el campo Nombre de la entrada, ponle un nombre sencillo, como “Archivo”. Este será el campo donde el usuario subirá el audio.
Haz clic en Guardar.
Paso 4: Añadiendo el AI Step de Transcripción
Ahora que el agente puede recibir el archivo, vamos a agregar la etapa que hará la transcripción.
Haz clic en AI Step.
En la lista de categorías, selecciona AI Audio Transcription.
En Tipo de paso, verás diferentes modelos de transcripción. Cada uno tiene sus ventajas:
AssemblyAI: Calidad de transcripción excelente.
Deepgram: Se enfoca en alta velocidad de procesamiento.
OpenAI (Whisper): Muy buen balance entre velocidad y calidad.
Rev.ai: Ideal para audios con varios hablantes, ya que distingue las voces.
Para este ejemplo, vamos a elegir AssemblyAI.
En Nombre del paso, ponle un nombre claro, como Transcripción del Archivo.
En el campo Media File, haz clic y selecciona la variable que creamos en el paso anterior: **archivo**. Así conectas la entrada del usuario directo al step, asegurando que cualquier archivo enviado sea procesado.
Selecciona el idioma del audio (ej: Portugués).
Haz clic en Guardar.
Paso 5: Conectando el Step al Prompt
La IA necesita saber dónde usar el resultado de la transcripción. Para eso, vamos a insertar la variable del step directamente en nuestro prompt.
Vuelve al campo Mi Prompt.
Al final del texto, añade una nueva sección para el contenido que será analizado.
Tu prompt quedará así:
“... (Persona, Objetivo, Output y Reglas) ...
# Contenido para Análisis
El contenido transcrito de la clase es el siguiente:
**transcricao_do_arquivo**”
Paso 6: Guardando y Probando tu Agente
Con todo listo, tu agente está listo para ser probado.
En la esquina superior derecha, haz clic en Guardar.
Ponle un nombre a tu agente, como "Resumen de Clases", y guarda.
Haz clic en Visualizar para abrir la interfaz de pruebas en una nueva pestaña.
En la pantalla de pruebas, vas a ver el campo de subir archivos que creamos (archivo). Sube un archivo de audio y haz clic para enviar.
Después del procesamiento, manda un comando en el chat, como "Genera el resumen de la clase".
La IA va a ejecutar todo el flujo: recibirá el audio, el paso de transcripción se activará, el texto resultante se va a poner en el prompt, y el agente va a seguir tus instrucciones para generar el resumen con formato.
Tip Extra: Combinando Steps para Flujos Avanzados
El poder de los AI Steps está en su capacidad de combinarse. Puedes crear agentes aún más complejos. Por ejemplo, un flujo de trabajo que:
Recibe un audio en portugués (Entrada de Usuario).
Transcribe el audio a texto (AI Step: Audio Transcription).
Traduce el texto al inglés (AI Step: AI Assistant, con un prompt para traducción).
Genera una nueva narración en inglés (AI Step: Audio Voice Over).
Esto muestra cómo puedes construir soluciones completas, conectando distintas capacidades de IA en un único flujo de trabajo automatizado.
Conclusión
Los AI Steps de Transcripción de Audio de Tess AI son una herramienta transformadora para cualquiera que trabaje con contenido de audio. Siguiendo esta guía, puedes crear agentes personalizados que no solo convierten voz en texto, sino que también analizan, resumen y reformatean esa información, ahorrando horas de trabajo manual y aprovechando el verdadero valor de tus archivos de audio.