Al construir un agente en el AI Studio de Tess AI, puedes ir mucho más allá de un simple entrenamiento. Con los Steps Avançados, puedes crear agentes que ejecutan tareas previas, procesan información de múltiples fuentes antes de iniciar la conversación (agente de chat) o entregar el resultado final (agente de texto).
¿Cuándo solo el Prompt no es suficiente en el agente?
Imagina que quieres crear un agente y automatizar la generación de una descripción de un producto. Toda la información sobre ese producto está en un catálogo en PDF.
Si solo le das el archivo PDF al agente en la entrada del usuario, no sabrá qué hacer. La IA necesita una instrucción para, primero, leer e interpretar el contenido de ese archivo. Es exactamente para eso que sirven los Steps Avançados: le dan a tu agente la capacidad de ejecutar acciones preliminares para complementar el contexto necesario de tu entrenamiento.
Ejemplos de Steps Avançados disponibles
Puedes equipar a tu agente con una variedad de "sentidos" y habilidades, incluyendo:
Extracción de texto de PDF: Permite que el agente lea y extraiga todo el texto de un documento PDF.
Lectura de imágenes con OCR: Una habilidad poderosa para extraer texto que está dentro de imágenes (como en un folleto escaneado o una captura de pantalla).
Lectura de páginas seleccionadas de un PDF: Optimiza el proceso, permitiendo que le indiques al agente que se enfoque solo en las páginas relevantes de un documento largo.
Web Scraping: Transforma a tu agente en un "lector de internet", capaz de extraer información de páginas web, como el contenido de un artículo o datos de un e-commerce.
Búsqueda en Google: Permite que el agente haga una búsqueda en Google y use los resultados como base para su respuesta.
Cómo Funciona en la Práctica: La Secuencia de Acciones
Cuando configuras un Step Avanzado, estás definiendo una línea de montaje para tu agente:
Entrada del Usuario: El usuario proporciona el material inicial (ej: un archivo PDF, una URL de un sitio).
Ejecución del Step Avanzado: El agente ejecuta la acción que configuraste (ej: extrae el texto del PDF, hace el web scraping de la URL).
Contextualización para la IA: El resultado del step (el texto extraído, el contenido del sitio) se proporciona automáticamente como información de contexto para la IA.
Generación de la Respuesta Final: La IA, ahora con la información necesaria, ejecuta tu prompt principal (ej: "Crea una descripción de producto con base en el texto extraído") y entrega el resultado.
Puntos de Atención para el Uso Eficaz
Impacto en el Tiempo de Procesamiento
Recuerda que cada Step Avanzado es una tarea adicional en el flujo inicial de trabajo de tu agente. Esto puede aumentar un poco el tiempo de procesamiento para iniciar la conversación (agente de chat), o para entregar el resultado final (agente de texto). Por lo tanto, úsalos de forma estratégica, solo cuando sean realmente necesarios.
No se ejecutan a lo largo de un chat
Como el principal objetivo de un step es complementar el entrenamiento con tareas y recursos avanzados, se ejecutará al inicio de un chat o procesamiento del agente de Texto.
Ejemplo:
Sabemos que hay un agente que crea eventos en la agenda de Google Calendar. Ese step no se activa a lo largo de una conversación en el chat, por ejemplo, se ejecuta al inicio, justo después de que el usuario complete los inputs necesarios.
Entonces, si necesitara crear un agente que creara eventos en mi agenda necesitaría:
Incluir un step para tomar la información de la agenda (App Integration)
Ejecutar un asistente de IA que viera los slots disponibles y estableciera el nuevo horario
Recolectar vía entradas la información requerida para crear un evento
Usar el step de creación de evento
O sea, antes de conversar con el chat, todo eso tendría que pasar.
La Conexión Crucial con el Prompt
No basta con añadir solo un Step Avanzado; necesitas indicar a la IA en tu prompt cómo usar la información que este aporta.
Ejemplo: Si añadiste un step de "Extração de texto de PDF", tu prompt principal debe contener algo como:
“Con base en el texto extraído del documento, identifica los principales beneficios del producto y escribe tres párrafos sobre ellos: texto-do-pdf”
Esta instrucción conecta la acción del step con el razonamiento del LLM, asegurando que la información recopilada se use de forma eficaz.