Saber se seu agente está realmente respondendo bem antes de colocá-lo em produção é essencial — e o novo recurso de Avaliação no Copilot Studio foi criado exatamente para isso. Com ele, você pode testar agente no Copilot Studio enviando dezenas ou centenas de perguntas de uma vez, analisar as respostas com métricas de qualidade e identificar falhas que passariam despercebidas no teste manual. Neste artigo, você aprende passo a passo como configurar e executar avaliações em massa.
Por Que Testar Agente no Copilot Studio Antes da Produção
O fluxo tradicional de validação de agentes tem dois problemas principais:
- Teste manual: o desenvolvedor digita perguntas uma a uma no painel de teste — processo lento, sujeito a viés e que cobre apenas uma fração dos cenários reais
- Teste via usuário final: colocar o agente direto em produção para usuários testarem significa pagar pelo uso de Copilot Credits com respostas ainda não validadas — e prejudicar a experiência dos primeiros usuários
A funcionalidade de Avaliação (aba Evaluation no Copilot Studio) resolve os dois problemas: você cria conjuntos de perguntas, executa a avaliação de forma automatizada e recebe um relatório com métricas de qualidade para cada resposta — tudo antes de publicar o agente.
Como Acessar o Recurso de Avaliação no Copilot Studio
O recurso está disponível diretamente no editor do agente:

- Abra o seu agente no Copilot Studio.
- No menu superior, localize e clique na aba Avaliação (Evaluation).
- Clique em Criar conjunto de teste (Create test set).
A partir daí, você tem três formas de popular o conjunto de perguntas de teste.
Três Formas de Criar seu Conjunto de Perguntas de Teste
1. Conjunto Rápido Gerado por IA
É a opção mais fácil para começar. Ao clicar em Conjunto rápido de perguntas, a IA do Copilot Studio analisa os tópicos, ferramentas e instruções do seu agente e gera automaticamente 10 perguntas representativas. Você pode expandir para até 100 perguntas geradas automaticamente para um teste mais abrangente.
Este método é ideal quando você quer uma primeira visão rápida do comportamento do agente sem precisar criar perguntas manualmente.
2. Perguntas Adicionadas Manualmente
Você pode complementar qualquer conjunto de testes adicionando perguntas específicas que sabe serem importantes. Para cada pergunta manual, há a opção de incluir uma resposta esperada — fundamental para os modos de avaliação mais precisos (similaridade e correspondência de texto).
Exemplo: para um agente de RH com uma regra de negócio específica ("férias devem ser solicitadas com mínimo 15 dias de antecedência"), você pergunta exatamente sobre essa regra e define a resposta esperada — assim o sistema pode verificar se o agente a reproduce corretamente.
3. Upload de CSV com Perguntas em Massa
Para testes em escala, você pode gerar as perguntas externamente (usando o ChatGPT, por exemplo) e importá-las via arquivo CSV. O CSV deve conter as perguntas e, opcionalmente, as respostas esperadas. Esse formato permite testar centenas de cenários de uma só vez.
Métodos de Avaliação: Qualidade, Similaridade e Correspondência
Ao criar o conjunto de testes, você escolhe o método de avaliação. Cada um serve para um objetivo diferente:
Qualidade Geral
O método mais amplo. A IA avalia cada resposta com base em quatro critérios:
- Relevância: a resposta ficou no tema da pergunta ou desviou?
- Fundamentação: usou as informações fornecidas ao agente ou inventou algo?
- Integridade: entregou a informação completa ou faltou algo importante?
- Abstenção: preferiu não responder em vez de inventar quando não sabia?
Ideal para um diagnóstico inicial do agente — especialmente útil quando você ainda não tem respostas esperadas definidas e quer apenas saber se o agente está dentro dos trilhos.
Similaridade
Compara a resposta do agente com a resposta esperada que você definiu, verificando se o significado está próximo. É menos rígido que a correspondência de texto — respostas semanticamente equivalentes são aceitas mesmo com palavras diferentes.
Use quando você sabe o que a resposta deve conter mas aceita variações de linguagem.
Correspondência de Texto
O método mais rigoroso: verifica se a resposta do agente contém termos ou frases específicas que você definiu como esperados. Não há tolerância para aproximações — se a resposta esperada é "15 dias", a resposta do agente precisa conter "15 dias".
Use para testar informações críticas e precisas — datas, valores, procedimentos específicos — onde a exatidão é obrigatória.
Executando a Avaliação e Analisando os Resultados
Com o conjunto de teste configurado, clique em Executar (Run). O Copilot Studio envia todas as perguntas para o agente de forma automatizada e aguarda as respostas. O processo leva alguns minutos dependendo do número de perguntas e da complexidade do agente.
Ao finalizar, você recebe um relatório com:
- Taxa geral de aprovação/falha (ex.: 54,5% aprovadas)
- Status individual de cada pergunta (Aprovada / Falha)
- Resposta real do agente para cada pergunta
- Raciocínio do agente (expandindo a opção Mostrar raciocínio)
- Análise de relevância, fundamentação, integridade e abstenção por pergunta
Interpretando os Resultados na Prática
O resultado Aprovada não significa que a resposta é perfeita — significa que passou nos critérios do método escolhido. E Falha não significa necessariamente uma resposta ruim — é uma indicação para revisão manual.
No exemplo do vídeo:
- Pergunta "Onde posso consultar itens do SharePoint?": o agente respondeu com um filtro técnico de tabela — útil para desenvolvedor, inadequado para usuário final. Falha detectada com sucesso.
- Pergunta "Preciso de um dia de folga": deveria ter caído no tópico específico de solicitação de folga, mas o agente pediu mais informações. Falha de roteamento de tópico identificada.
- Pergunta "Como solicito minhas férias?": resposta correta com o prazo de 15 dias. Aprovada com conteúdo validado.
Boas Práticas para Testar seu Agente no Copilot Studio
- Comece com qualidade geral para diagnóstico inicial — depois refine com conjuntos menores e mais específicos usando similaridade ou correspondência
- Use o ChatGPT para gerar as perguntas CSV: peça ao ChatGPT para criar 50-100 perguntas que os usuários fariam ao agente, exportar como CSV e importar no conjunto de teste
- Inclua perguntas fora do escopo do agente para verificar se ele se abstém corretamente em vez de inventar respostas
- Teste com diferentes usuários se seu agente utiliza dados específicos por usuário (listas do SharePoint, permissões etc.) — a avaliação permite selecionar qual usuário executa os testes
- Execute avaliações regularmente após cada atualização significativa no agente — não apenas antes do lançamento inicial
Perguntas Frequentes
O recurso de Avaliação do Copilot Studio consome Copilot Credits?
Sim, a execução da avaliação envia perguntas reais ao agente, o que consome Copilot Credits (mensagens). Porém, é um custo muito menor do que colocar o agente em produção com falhas e ter usuários reais gerando mensagens com respostas incorretas — o retorno em qualidade justifica o investimento.
Quantas perguntas posso incluir em um conjunto de teste?
A geração automática por IA permite criar até 100 perguntas por conjunto. Via upload de CSV, o limite pode ser maior — verifique a documentação atual do Copilot Studio para os limites exatos, pois eles podem ser atualizados com novas versões.
Posso usar a Avaliação para comparar versões do mesmo agente?
Sim. Você pode salvar os conjuntos de teste e re-executá-los após cada atualização do agente para comparar os resultados ao longo do tempo. Se a taxa de aprovação cair após uma mudança, você saberá exatamente qual conjunto de perguntas foi afetado.
O método de correspondência de texto é case-sensitive?
Geralmente não — a correspondência ignora maiúsculas e minúsculas. Mas o critério é preciso em relação ao conteúdo: se a resposta esperada é “15 dias”, a resposta do agente precisa mencionar “15 dias” de alguma forma na resposta.
Posso testar agentes do Copilot Studio que usam ferramentas externas (APIs, SharePoint)?
Sim. Ao configurar a avaliação, você define o usuário que executa os testes — e as ferramentas são acionadas com as credenciais desse usuário. Isso permite validar agentes que buscam dados reais em APIs, listas do SharePoint ou outras fontes externas.
Conclusão
O recurso de Avaliação do Copilot Studio transforma o processo de validação de agentes: em vez de testes manuais lentos ou da gamble de colocar diretamente em produção, você testa o agente no Copilot Studio com dezenas de perguntas de uma vez e recebe um relatório detalhado com métricas de qualidade.
O resultado prático é mais confiança antes do lançamento e um ciclo de melhoria mais rápido — você sabe exatamente onde o agente falha e pode corrigir antes que os usuários finais percebam. Assista ao vídeo acima para ver a demonstração completa com um agente de RH real sendo avaliado em tempo real.