Cómo transcribir audios y videos con Tess AI

La capacidad de convertir audio y video en texto de manera rápida y precisa es una herramienta poderosa para muchos profesionales y creadores de contenido. Ya sea para documentar reuniones, transformar webinars en entradas de blog, subtitular videos o analizar entrevistas, la transcripción ahorra tiempo y abre nuevas posibilidades para aprovechar el contenido

Este artículo detalla los principales métodos para transcribir tus archivos de audio o video usando Tess.

Método 1: El Área Dedicada de Transcripción en Tess

La forma más directa de hacer una transcripción en Tess AI es a través del área específica en Agent Studio: Generador de Transcripción. Este recurso es ideal para quienes buscan simplicidad y rapidez, sin tener que configurar prompts complejos.

Cómo Acceder y Usar:

En el menú lateral izquierdo de la plataforma Tess AI, entra a Agent Studio.
Entre las opciones, selecciona: Generador de Transcripción.
La interfaz de transcripción está dividida en dos lados:
- Lado Izquierdo: Campo para subir el archivo de audio o video.
- Lado Derecho: Área donde se muestra el texto transcrito.
Haz clic en "Elegir archivo" en la sección izquierda y selecciona el archivo de audio o video de tu computadora.
- Formatos Aceptados: Tess acepta varios formatos, incluyendo MP3, MP4, MPEG, MPGA, M4A, entre otros. Puedes pulsar el ícono de información (una "i" dentro de un círculo) para ver la lista completa.
- Límite de tamaño: El archivo no debe superar los 200 MB.
Después de subir el archivo, haz clic en el botón "Tess genera para mí".
Espera el proceso. El tiempo puede variar según el tamaño del archivo.
El texto transcrito aparecerá en la sección derecha de la pantalla.

Recursos adicionales en el área de transcripción:

Edición: Puedes editar directamente el texto transcrito, corrigiendo palabras, añadiendo puntuación o formateando con negrita, cursiva y subrayado.
Costo: La transcripción en esta área tiene un costo fijo de 5 créditos por ejecución, más un costo variable de 0.03 créditos por segundo de audio/video. Se mostrará el costo total de la generación.
Opciones de salida:
- Copiar: Copia todo el texto transcrito al portapapeles.
- Descargar (TXT): Descarga la transcripción en un archivo de texto plano (.txt).
- Visualizar en HTML: Te deja ver el código HTML de la transcripción.
- Eliminar: Quita la transcripción generada.

Tip: Siempre revisa el formato y el tamaño de tu archivo antes de subirlo para asegurarte de que sea compatible.

Método 2: Transcribiendo Audios Dinámicamente por el Chat de Tess

Otra forma versátil de transcribir archivos es usando la funcionalidad de chat junto con la Base de Conocimiento. Este método te deja no solo transcribir, sino también interactuar con lo que hay en el audio, pidiendo resúmenes, análisis o respuestas a preguntas específicas basadas en el archivo.

Cómo Acceder y Usar:

Abre una conversación nueva o alguna conversación ya iniciada y haz clic en el botón de “+”
En la ventana que aparece, puedes arrastrar o elegir seleccionar el audio desde tu computadora.

Recuerda el límite de 200 MB por archivo.

Configuraciones de Transcripción:
Modelo de Transcripción: Elige el motor de transcripción que quieras:
- Deepgram: Conocido por su rapidez.
- AssemblyAI: Enfocado en mejor calidad.
- OpenAI: Ofrece un buen equilibrio entre velocidad y calidad.
- Rev.ai: Ideal para transcripciones que necesitan timestamping (marcado de tiempo para cada intervención).
Idioma: Selecciona el idioma del audio (ej: Portugués).
Context Mode (Modo de Contexto):
- RAG: Recomendado para archivos más grandes. La IA divide el archivo en partes y analiza sólo lo que hace falta para responder a tu petición.

Deep Learning: Recomendado para archivos más pequeños. La IA hace un análisis completo del contenido.

Haz clic en "Guardar". El archivo será procesado y añadido a tu base de conocimiento para la sesión actual del chat.
Ahora puedes interactuar con el audio. Para obtener la transcripción completa, escribe un comando como: "Haz la transcripción del archivo adjunto" o "Transcribe el audio que envié".
Además de la transcripción, puedes pedir resúmenes, identificar puntos clave, etc. Ejemplo: "Haz un resumen en puntos sobre el archivo adjunto".

Tip: Este método es genial cuando necesitas más que solo el texto sin formato, permitiendo un análisis más profundo e interactivo del contenido de tu audio.

Método 3: Transcripciones con agentes de IA personalizados

Para quienes necesitan integrar la transcripción en flujos de trabajo más complejos o quieren crear IAs especializadas en analizar contenido de audio, AI Studio permite crear agentes personalizados. (Esta función está disponible para usuarios de los planes Individual o Business).

Cómo crear un agente para transcripción:

Accede al Agent Studio en el menú lateral y haz clic para agregar un nuevo agente:
Configuración Inicial del Agente:
- Tipo de Aplicación de IA: Selecciona "Chat" (o "Texto", según lo que necesites lograr).
- Modelo de IA: Puedes elegir un modelo específico (ej: GPT-4o mini) o dejar "All LLM Models" para que la persona usuaria elija.
Prompt: Define la persona, objetivo y reglas de tu agente. Ejemplo para un agente que analiza clases:
- Persona: Você é um especialista em pedagogia e análise de conteúdo educacional.
- Objetivo: Sua função é transcrever a aula fornecida e, em seguida, fornecer um resumo dos principais tópicos e três sugestões de melhoria para o apresentador.
- Reglas: Seja claro, conciso e forneça feedback construtivo.
Entrada de Usuario (Subida de la Clase):
- Haz clic en "Agregar una entrada de usuario" debajo del prompt del sistema.
- Tipo de entrada: Selecciona "Subida de archivo".
- Nombre de la entrada: Ponle un nombre descriptivo, como gravação da aula.
Paso de Transcripción (AI Step):
- Haz clic en "Agregar un AI step".
- Categoría del Step: Selecciona "AI Audio Transcription".
- Tipo de Paso: Elige el modelo de transcripción (ej: Deepgram Audio Transcription).
- Nombre del Paso: Ponle un nombre, como transcricao da aula.
- Media File: Haz clic en el ícono de enlace y selecciona la variable de la entrada de usuario creada antes (ej: **gravação-da-aula**). Esto asegura que el archivo subido por la persona va a ser usado para la transcripción.
- Idioma: Define el idioma del audio.
Integrando la Transcripción en el Prompt Principal:
- Vuelve al Prompt de Sistema del agente.
- En el lugar donde quieras que aparezca la transcripción para analizar, inserta la variable con el resultado del AI Step. Ejemplo: Sua função é analisar a aula transcrita a seguir: **class-transcript** e, em seguida, ...
Guardar y Visualizar:
- Ponle un nombre a tu agente y guárdalo.
- Haz clic en "Visualizar" para probarlo. Vas a poder subir el archivo de audio y el agente seguirá las instrucciones del prompt, usando la transcripción que se genera internamente.

Tip: Crear agentes es super poderoso para automatizar tareas repetitivas y hacer soluciones de IA a la medida para lo que necesites en el análisis de audio.

Tips esenciales y límites para transcripciones exitosas

Calidad del audio: Mientras mejor sea la calidad del audio original (menos ruido de fondo, oradores claros), más precisa será la transcripción.
Límite de archivo: Recuerda el límite de 200 MB por archivo para todas las formas de transcripción en Tess AI.
Formatos: Asegúrate de que tu formato de archivo esté soportado antes de intentar subirlo.
Tiempos: Si necesitas saber el momento exacto de cada intervención, usa el modelo Rev.ai en la transcripción por chat (Base de Conocimiento).
Múltiples hablantes: Para audios con varias personas hablando, la claridad de la grabación es aún más importante. Algunos modelos pueden tener más dificultad para distinguir voces que hablan al mismo tiempo.

Conclusión

Tess AI ofrece un conjunto robusto y flexible de herramientas para transcripción de audio y video, cubriendo desde necesidades simples y directas hasta flujos de trabajo automatizados y complejos. Al dominar el área de Transcripción del AI Copilot, la transcripción por chat con Base de Conocimiento y la creación de agentes en el AI Studio, podrás transformar tus contenidos de audio y video en texto de forma eficiente, optimizando tu tiempo y sacando el máximo provecho de tus grabaciones.

Central de Ayuda