O Foundry Local da Microsoft chegou para mudar o jogo para desenvolvedores: agora é possível rodar modelos de IA diretamente na sua máquina, sem pagar nada por computação em nuvem. Se você já usou o Azure AI Foundry e pagou por cada requisição, essa novidade chega como uma alternativa zero-custo para desenvolvimento, testes e casos de uso em produção com hardware local. Neste artigo, você vai aprender como instalar o Foundry Local no Windows, baixar um modelo leve e entender quando usar IA offline em vez da nuvem.
O que é o Foundry Local da Microsoft?
O Foundry Local é uma solução da Microsoft para rodar modelos de linguagem grandes (LLMs) diretamente no seu dispositivo — seja no CPU, GPU ou nos dois automaticamente. Em vez de enviar suas requisições para o Azure AI Foundry ou OpenAI, o processamento acontece 100% local, usando os recursos do seu próprio hardware.
Na prática, isso significa alguns benefícios concretos:
- Custo operacional zero — sem cobrança por tokens ou chamadas de API
- Funcionamento offline — ideal para ambientes sem internet ou com restrições de segurança empresarial
- Flexibilidade de modelos — escolha entre modelos leves (0,5 GB) até modelos mais robustos (10+ GB)
- Compatibilidade com API padrão OpenAI — integre com aplicações existentes mudando apenas a URL base
- Privacidade total dos dados — nenhuma informação sai do seu dispositivo
Vale destacar que o Foundry Local não é um produto experimental: a Microsoft disponibiliza os mesmos modelos do Azure AI Foundry, empacotados para execução local. A ferramenta detecta automaticamente se é melhor usar a CPU ou a GPU da sua máquina, otimizando a performance sem configuração manual.
Como Instalar o Foundry Local no Windows com Winget
A instalação do Foundry Local Microsoft no Windows é simples graças ao winget (Windows Package Manager). Você não precisa configurar ambientes virtuais do Python ou baixar arquivos manualmente — um único comando resolve tudo.

Abra o Prompt de Comando como administrador e execute:
winget install Microsoft.FoundryLocalO processo pode levar entre 20 a 30 minutos dependendo da sua conexão e do hardware. Após a instalação, o Foundry Local estará disponível como comando no terminal do Windows e também no terminal integrado do VS Code.
Você também pode instalar via pip se preferir gerenciar pelo Python:
pip install foundry-localO método winget é mais recomendado para uso no Windows porque já cuida de todas as dependências do sistema operacional, incluindo os runtimes necessários para execução dos modelos.
Requisitos mínimos para rodar o Foundry Local
- Windows 10 ou superior (64-bit)
- Mínimo de 8 GB de RAM para modelos leves (0,5B a 1,5B parâmetros)
- 16 GB ou mais de RAM para modelos intermediários (3B a 7B parâmetros)
- GPU com suporte CUDA ou AMD ROCm (opcional, mas recomendado para modelos maiores)
- Espaço em disco equivalente ao tamanho do modelo escolhido (0,5 GB a 10+ GB)
Máquinas sem GPU dedicada ainda conseguem rodar modelos menores com performance aceitável para uso no desenvolvimento e testes.
Baixando e Executando um Modelo LLM no Foundry Local
Após instalar, o próximo passo é escolher e baixar um modelo. O Foundry Local oferece uma lista de modelos disponíveis que você pode explorar antes de decidir. Para ver todos os modelos disponíveis, execute:
foundry model listOs modelos aparecem com nome, tamanho e tipo. Para quem está começando ou tem hardware limitado, o Qwen 2.5 Instruct 0.5B é a escolha ideal: ocupa apenas 0,5 GB, responde em milissegundos e funciona bem para automações simples.
Para baixar e rodar diretamente, use o comando:
foundry model run qwen2.5-0.5b-instructSe o modelo não estiver na sua máquina, o download é feito automaticamente. Com a flag Auto Select, o Foundry Local decide qual versão roda melhor no seu hardware — CPU ou GPU — sem configuração manual. Importante: ao usar o Auto Select, o sistema pode baixar múltiplas versões do modelo para identificar a mais adequada ao seu dispositivo, o que pode aumentar o tempo de download inicial.
Modo interativo: conversando com o modelo no terminal
Após o download, o Foundry Local entra automaticamente no modo interativo — um chatbot rodando 100% na sua máquina. Você digita perguntas diretamente no terminal e recebe respostas sem latência de rede.
O Qwen 2.5 0.5B nos testes se saiu bem em:
- Operações matemáticas simples e intermediárias
- Detecção de palavras-chave em textos curtos
- Automações baseadas em texto com regras simples
- Geração de respostas curtas sobre temas factuais
As limitações ficam evidentes em perguntas abertas que exigem raciocínio profundo ou contexto histórico complexo — o modelo pode fornecer informações relacionadas sem responder diretamente ao que foi perguntado. Isso é esperado para um modelo de 0,5B parâmetros e reforça a importância de escolher o modelo certo para cada tarefa.
Como Escolher o Modelo Certo para Cada Caso de Uso
Uma das maiores dúvidas ao usar o Foundry Local da Microsoft é qual modelo baixar. A oferta vai de 0,5 GB até mais de 10 GB, e o tamanho impacta diretamente três fatores:
- Velocidade de resposta — modelos menores respondem em milissegundos; maiores podem levar segundos
- Capacidade de raciocínio — modelos maiores lidam melhor com tarefas complexas, análise de documentos e geração de código
- Consumo de recursos — precisa caber inteiramente na memória RAM ou VRAM disponível
Uma dica prática: você pode copiar a lista de modelos do Foundry Local e colar no ChatGPT perguntando “qual modelo é melhor para cada caso de uso?”. Isso foi testado durante a gravação do vídeo e o resultado é uma tabela clara mostrando o Qwen 2.5 0.5B como ideal para comandos de automação leve, baixo consumo e performance em qualquer máquina.
Para cenários mais exigentes — como análise de documentos longos, geração de código complexo ou raciocínio em múltiplos passos — modelos de 7B parâmetros ou maiores são mais adequados, desde que seu hardware suporte.
Foundry Local vs Azure AI Foundry: Quando Usar Cada Um?
Essa é a questão central para qualquer desenvolvedor que descobre o Foundry Local. A resposta depende diretamente do seu caso de uso e infraestrutura disponível:
- Use Foundry Local quando: precisar de IA offline, quiser custo zero em protótipos e testes, tiver hardware disponível, trabalhar com dados sensíveis que não podem sair da máquina, ou precisar de baixa latência sem depender de internet
- Use Azure AI Foundry quando: precisar de modelos grandes como GPT-4o ou Phi-4, estiver em produção com alta demanda simultânea, não tiver hardware suficiente para modelos robustos, ou precisar de escalabilidade automática
O Foundry Local também abre oportunidades interessantes para soluções edge: instalar IA em tablets, computadores de campo ou sistemas embarcados que funcionam offline. Imagine um aplicativo que classifica documentos, detecta anomalias ou transcreve áudio em dispositivos sem conexão à internet — o Foundry Local viabiliza exatamente isso, com custo operacional equivalente apenas à energia elétrica consumida pelo hardware.
Integração com Power Platform e outras aplicações
O Foundry Local expõe uma API REST compatível com o padrão OpenAI na porta http://localhost:5272. Isso significa que qualquer cliente que já consome a API da OpenAI pode ser apontado para o endpoint local simplesmente trocando a URL base — sem alterar o código da aplicação.
Para Power Automate e Power Apps, a integração direta não é possível pois essas ferramentas exigem endpoints acessíveis na internet. Contudo, é viável criar um servidor intermediário na mesma rede corporativa ou usar um túnel reverso para expor o endpoint local de forma controlada.
Perguntas Frequentes
O Foundry Local é realmente gratuito?
Sim. A instalação e o uso do Foundry Local são totalmente gratuitos. Você paga apenas pelos recursos do seu computador — energia elétrica, CPU e GPU. Não há cobrança por tokens, chamadas de API ou licença. A Microsoft disponibiliza a ferramenta como parte do ecossistema Azure AI, mas sem custo de nuvem para execução local.
Quais modelos estão disponíveis no Foundry Local?
A lista inclui modelos como Qwen 2.5 (nas versões 0,5B, 1,5B, 3B e 7B), além de outros modelos open source otimizados para execução local. Para ver todos os modelos disponíveis, execute foundry model list no terminal após a instalação. Os modelos são listados com tamanho e descrição para facilitar a escolha conforme seu hardware.
O Foundry Local funciona sem internet após instalar o modelo?
Sim. Após instalar o Foundry Local e baixar o modelo escolhido, todo o processamento é 100% offline. Isso o torna ideal para ambientes corporativos com restrições de segurança, locais sem conectividade confiável ou sistemas embarcados que precisam operar de forma autônoma e contínua.
Preciso de GPU para usar o Foundry Local?
Não é obrigatório. Com a opção Auto Select, o Foundry Local detecta automaticamente se é melhor usar CPU ou GPU no seu computador. Para modelos menores (0,5B a 1,5B parâmetros), um CPU moderno já oferece performance aceitável para desenvolvimento e testes. A GPU acelera significativamente modelos maiores (7B ou mais), mas não é pré-requisito para começar.
É possível usar o Foundry Local com Python ou n8n?
Sim. O Foundry Local expõe um endpoint REST compatível com a API da OpenAI em http://localhost:5272. Você pode usar a biblioteca openai do Python apontando base_url para esse endereço, ou configurar um nó HTTP no n8n para consumir o modelo local como se fosse qualquer outra API de IA.
Conclusão
O Foundry Local da Microsoft é uma das adições mais práticas ao ecossistema de IA para desenvolvedores que querem explorar LLMs sem custo de nuvem. Com dois comandos — um para instalar e outro para rodar o modelo — você tem um assistente de IA local pronto, ideal para prototipagem, automações leves, soluções offline e qualquer projeto onde privacidade e custo zero sejam prioridade.
Assista ao vídeo acima para acompanhar a instalação e os testes na prática, direto no Windows. E nos comentários: qual caso de uso você imagina para rodar IA local no seu projeto? Deixe sua ideia lá embaixo — pode ser o tema do próximo vídeo do canal!