Pruebas automatizadas en Copilot Studio para agentes de IA: crea, ejecuta y analiza test sets CSV sin esfuerzo

He probado la nueva función de evaluación automática (Automated testing) para agentes creados en Copilot Studio.
El hecho de poder verificar la precisión de las respuestas por lotes utilizando un conjunto de pruebas (CSV), algo que hasta ahora hacía manualmente, es una ventaja enorme.

La importancia de las pruebas automatizadas en el desarrollo de agentes de IA para garantizar la calidad en Copilot Studio
Pruebas automatizadas en Copilot Studio
Preparación: Crear el agente objeto de la prueba
Crear el conjunto de pruebas (elementos de prueba)
Ejecución de la prueba automatizada
Detalles de los resultados de la prueba
Extra 1: Cuando el conjunto de pruebas tiene caracteres corruptos
Extra 2: Traducción de los comentarios de la plantilla del conjunto de pruebas (CSV)
Artículos relacionados
Documentación oficial

La importancia de las pruebas automatizadas en el desarrollo de agentes de IA para garantizar la calidad en Copilot Studio

En el desarrollo de agentes de IA, garantizar la calidad es un tema crucial.

A diferencia del desarrollo tradicional basado en reglas, la IA generativa siempre conlleva fluctuaciones en las respuestas y alucinaciones, por lo que un solo error tiende a generar una impresión negativa en el usuario del tipo «por eso la IA no sirve…».

Por ello, es importante contar con un proceso de pruebas riguroso, pero no es realista que los humanos verifiquen manualmente todos los patrones de entrada casi infinitos del lenguaje natural.

Por lo tanto, la introducción de las «pruebas automatizadas» que presento hoy se convierte en un elemento indispensable para crear «agentes confiables» que puedan operar en producción con tranquilidad.

Pruebas automatizadas en Copilot Studio

Las pruebas automatizadas de Copilot Studio se ejecutan desde la pestaña [Evaluación].

Para realizar la prueba, primero prepara datos que incluyan los siguientes 4 elementos:

Pregunta al agente
Respuesta ideal
Método de evaluación (Test Method)
(Dependiendo del método de evaluación) Umbral para considerar la prueba exitosa

Dentro de ellos, el «Método de evaluación» se selecciona de entre los siguientes, según lo que desees verificar:

・General quality (Calidad general)

El método de evaluación más avanzado utilizando IA generativa. El LLM actúa como juez y califica de manera integral basándose en los siguientes 4 puntos. Es ideal para probar respuestas típicas de la IA generativa donde «no hay una única respuesta correcta».

Relevancia (Relevance): ¿Responde con precisión a la intención de la pregunta?
Fundamentación (Groundedness): ¿Se basa la respuesta en las fuentes de datos (sin alucinaciones)?
Integridad (Completeness): ¿Se cubre toda la información necesaria sin omisiones?
Cortesía (Politeness): ¿Es el tono cortés y libre de expresiones inapropiadas?

・Compare meaning (Comparar significado)

Determina si la «intención del texto» es correcta. No es necesario que coincida palabra por palabra; si el significado o la idea subyacente coincide con el valor esperado (respuesta ideal), se considera aprobado, aunque la expresión sea diferente. Es útil cuando se quiere priorizar la corrección semántica.

・Similarity (Similitud)

La IA utiliza la «similitud del coseno» para calcular la cercanía entre la respuesta del agente y el valor esperado con una puntuación de 0 a 1. Se utiliza cuando se desea evaluar mecánicamente, incluyendo la cercanía semántica y no solo la coincidencia exacta de palabras.

・Exact match (Coincidencia exacta)

Verifica si la respuesta es «exactamente igual» al valor esperado. Se requiere una coincidencia del 100% en caracteres, números y símbolos. Se utiliza para confirmar datos donde no se permite ninguna fluctuación, como números de modelo, códigos o frases fijas.

・Partial match (Coincidencia parcial)

Verifica si la respuesta incluye «palabras clave» o «frases» específicas esperadas. Es útil para comprobaciones de requisitos, como asegurarse de que se incluya un texto de guía como «Si tiene dudas, contacte a soporte» o si se incluye una URL obligatoria.

Ahora, vamos a realizar una prueba automatizada real.
En este artículo, presentaré todo el proceso: ① Creación del conjunto de pruebas, ② Procedimiento de ejecución, ③ Cómo interpretar los resultados y ④ Cómo solucionar problemas de caracteres corruptos.

Preparación: Crear el agente objeto de la prueba

Como preparación previa, crearemos el agente que será probado. Esta vez, lo configuraremos como un «agente que trabaja en una cafetería».

Primero, crea un agente que pueda conversar en japonés (o el idioma deseado).

En las instrucciones, introduce el siguiente prompt:

Eres un barista virtual con IA de "Blue Cloud Coffee".
Tu función es responder a las preguntas de los clientes, principalmente ingenieros de la nube y desarrolladores que visitan este café, y proporcionarles un cómodo "tiempo de espera de despliegue".

## Configuración del personaje y comportamiento
- Tono y estilo: Intelectual y amigable, con un poco de humor. Conversa mezclando moderadamente términos de TI y chistes para ingenieros.
- Cortesía: Básicamente usa un lenguaje formal, pero no demasiado rígido; mantén una distancia plana como si hablaras con un colega ingeniero.
- Especialidad: Además del conocimiento sobre café, responde con especial precisión sobre la infraestructura que preocupa a los ingenieros, como Wi-Fi y entorno de energía.

## Pautas de respuesta
1. Acompaña el saludo con palabras de bienvenida que incluyan términos de TI. (Ej: "Gracias por el acceso", "Conexión establecida", etc.)
2. Al explicar el menú, no solo describas el sabor, sino agrega los beneficios para los ingenieros (efecto boost de la cafeína, efecto relajante, etc.).
3. Para errores o preguntas desconocidas, responde con humor usando expresiones como "404 Not Found (Respuesta no encontrada)" o "Internal Server Error (Pensando)".
4. No inventes información que no esté en el conocimiento; di honestamente "esos datos no están indexados en mi base de datos".

## Prohibiciones
- Trata los temas de la competencia (otras cadenas de cafeterías) como "historias de otra región" y evítalos sutilmente.
- No realices depuración de código ni asistencia de programación real. Recházalo diciendo "Eso se lo dejamos a Stack Overflow".

Agrega el siguiente archivo de texto y descripción al conocimiento (Knowledge).

Archivo de texto ↓

Nombre de la tienda: Blue Cloud Coffee
Concepto: Una cafetería donde la tecnología y el café se fusionan, permitiendo que los ingenieros de la nube se relajen.
Dirección: 1-2-3 Tech Park, Minato-ku, Tokio
Horario: Laborables 8:00-20:00, Fines de semana y festivos 10:00-18:00
Día de descanso: Todos los martes
SSID Wi-Fi: BlueCloud_Guest
Contraseña Wi-Fi: Coffee2025!
Método de pago: Totalmente sin efectivo (solo tarjetas de crédito, IC de transporte, pago QR). No se acepta efectivo.
Menú:
- Serverless Espresso: 400 yenes (Rico y muy amargo)
- API Latte: 550 yenes (Con mucha leche y dulce)
- Deploy Donut: 300 yenes (Excelente combinación con el café)
Energía: Disponible en todos los asientos. También hay préstamo de monitores.

Descripción ↓

Utilice este conocimiento cuando el usuario solicite información básica sobre la cafetería "Blue Cloud Coffee".
Específicamente, consúltelo cuando responda a las siguientes preguntas:
- Información básica como dirección de la tienda, horario comercial, días de descanso
- Información de conexión como SSID y contraseña de Wi-Fi
- Métodos de pago disponibles (soporte sin efectivo, etc.)
- Menú y precios de café y comida
- Instalaciones y ambiente de la tienda (energía, orientado a ingenieros, etc.)

Por favor, importe los casos de prueba que desea utilizar para probar el agente.

Con esto concluye la construcción del agente objeto de la prueba.

Crear el conjunto de pruebas (elementos de prueba)

A continuación, crearemos el conjunto de pruebas que se utilizará en la prueba automatizada.

Desde [Crear conjunto de pruebas] en la pestaña [Evaluación],

Descarga el archivo de plantilla (CSV) del conjunto de pruebas.

Este es el archivo descargado. Hasta la línea 14 son comentarios, y a partir de la línea 15 son los elementos de prueba reales.
* La traducción de los comentarios está en la sección «Extra» más adelante.

Esta vez he creado los elementos de prueba de la siguiente manera. De izquierda a derecha: «Pregunta a la IA», «Respuesta ideal (esperada)», «Método de prueba», «Puntuación para considerar éxito».

Sube esto y la preparación estará completa.
* Es conveniente guardar el conjunto de pruebas subido con un nombre, ya que podrás realizar la prueba tantas veces como quieras.

Ejecución de la prueba automatizada

Si presionas el botón [Evaluación] en el estado anterior,

Se te pedirá una conexión (conector), así que conéctate con tu cuenta y ejecuta.

Cuando se completa la prueba, se muestra la tasa de éxito de esta manera.

Detalles de los resultados de la prueba

Finalmente, veamos los detalles de los resultados de la prueba.

Primero, la pregunta sobre los días de descanso. Aquí se seleccionó «Compare meaning (Comparar significado)» como método de prueba y se estableció el umbral de éxito en 70, por lo que se juzgó como exitoso. Al comparar la respuesta esperada y la respuesta del agente, se ve bastante bien.

A continuación, la pregunta sobre el pago en efectivo. Seleccioné «Partial match (Coincidencia parcial)» como método de prueba, pero como la respuesta ideal (no se puede usar efectivo) no estaba incluida exactamente en la respuesta, resultó NG (No Aprobado).
* Este es un mal ejemplo de cómo crear un elemento de prueba; originalmente debería haberse realizado con «Compare meaning» u otro método similar.

Y la pregunta sobre el horario comercial. Configuré el método de prueba en «Similarity (Similitud)» y el umbral en 70, pero resultó NG.
Sin embargo, dado que la IA respondió correctamente, este es un elemento de prueba donde se debería bajar el «umbral» o cambiar el método de prueba a «Compare meaning».

En conclusión, es una función de prueba automatizada muy potente.

Incluso cuando se realizan pequeñas correcciones en el prompt o actualizaciones en el conocimiento (como SPO), simplemente ejecutando esta prueba se puede detectar inmediatamente si «las respuestas anteriores no se han roto», por lo que se recomienda su introducción a nivel obligatorio en la operación real.

Extra 1: Cuando el conjunto de pruebas tiene caracteres corruptos

Si editas el conjunto de pruebas en Excel y lo subes, a veces los caracteres pueden aparecer corruptos (mojibake).

Esto se debe a que es necesario crear el conjunto de pruebas en UTF-8. Se puede solucionar cambiando la codificación de caracteres en el Bloc de notas después de editar en Excel.

Extra 2: Traducción de los comentarios de la plantilla del conjunto de pruebas (CSV)

La traducción de los comentarios descritos en la plantilla del conjunto de pruebas es la siguiente.
* Tenga en cuenta que hay partes donde la traducción de la plantilla y la documentación oficial difieren. (Ej: El número máximo de caracteres para una pregunta es «500 caracteres en la plantilla» vs «1,000 caracteres en la documentación oficial»).

Limitaciones
Máximo 100 preguntas
Máximo 500 caracteres por pregunta, incluidos espacios

Descripción de las columnas importadas
Question (Pregunta): El texto de la pregunta del usuario que el agente responderá.
Expected response (Respuesta esperada): La respuesta correcta necesaria para ejecutar pruebas de «match (coincidencia exacta)», «similarity (similitud)» y «compare meaning (comparar significado)».

Test method type (Tipo de método de prueba): Hay varios métodos para evaluar la respuesta del agente. Se pueden especificar los siguientes:
GeneralQuality (Calidad general)
TextSimilarity (Similitud de texto)
CompareMeaning (Comparar significado)
PartialMatch (Coincidencia parcial)
ExactMatch (Coincidencia exacta)

Passing score (Puntuación de aprobación): El umbral que separa Aprobado (Pass) de Reprobado (Fail). Se puede configurar para casos de prueba de «similarity» y «compare meaning».

Para más detalles, consulte la documentación.

Documentación oficial

Crear conjuntos de pruebas para evaluaciones - Microsoft Copilot Studio

Crea casos de prueba con IA generativa, manualmente o mediante importación de archivos, te ayuda a medir y mejorar el re...