Foundry Local: Rode LLMs da Microsoft Grátis no Windows

Compartilhe nas Redes Sociais:

O Foundry Local da Microsoft chegou para mudar o jogo para desenvolvedores: agora é possível rodar modelos de IA diretamente na sua máquina, sem pagar nada por computação em nuvem. Se você já usou o Azure AI Foundry e pagou por cada requisição, essa novidade chega como uma alternativa zero-custo para desenvolvimento, testes e casos de uso em produção com hardware local. Neste artigo, você vai aprender como instalar o Foundry Local no Windows, baixar um modelo leve e entender quando usar IA offline em vez da nuvem.

O que é o Foundry Local da Microsoft?

O Foundry Local é uma solução da Microsoft para rodar modelos de linguagem grandes (LLMs) diretamente no seu dispositivo — seja no CPU, GPU ou nos dois automaticamente. Em vez de enviar suas requisições para o Azure AI Foundry ou OpenAI, o processamento acontece 100% local, usando os recursos do seu próprio hardware.

Na prática, isso significa alguns benefícios concretos:

  • Custo operacional zero — sem cobrança por tokens ou chamadas de API
  • Funcionamento offline — ideal para ambientes sem internet ou com restrições de segurança empresarial
  • Flexibilidade de modelos — escolha entre modelos leves (0,5 GB) até modelos mais robustos (10+ GB)
  • Compatibilidade com API padrão OpenAI — integre com aplicações existentes mudando apenas a URL base
  • Privacidade total dos dados — nenhuma informação sai do seu dispositivo

Vale destacar que o Foundry Local não é um produto experimental: a Microsoft disponibiliza os mesmos modelos do Azure AI Foundry, empacotados para execução local. A ferramenta detecta automaticamente se é melhor usar a CPU ou a GPU da sua máquina, otimizando a performance sem configuração manual.

Como Instalar o Foundry Local no Windows com Winget

A instalação do Foundry Local Microsoft no Windows é simples graças ao winget (Windows Package Manager). Você não precisa configurar ambientes virtuais do Python ou baixar arquivos manualmente — um único comando resolve tudo.

Foundry Local Rode LLMs da Microsoft

Abra o Prompt de Comando como administrador e execute:

winget install Microsoft.FoundryLocal

O processo pode levar entre 20 a 30 minutos dependendo da sua conexão e do hardware. Após a instalação, o Foundry Local estará disponível como comando no terminal do Windows e também no terminal integrado do VS Code.

Você também pode instalar via pip se preferir gerenciar pelo Python:

pip install foundry-local

O método winget é mais recomendado para uso no Windows porque já cuida de todas as dependências do sistema operacional, incluindo os runtimes necessários para execução dos modelos.

Requisitos mínimos para rodar o Foundry Local

  • Windows 10 ou superior (64-bit)
  • Mínimo de 8 GB de RAM para modelos leves (0,5B a 1,5B parâmetros)
  • 16 GB ou mais de RAM para modelos intermediários (3B a 7B parâmetros)
  • GPU com suporte CUDA ou AMD ROCm (opcional, mas recomendado para modelos maiores)
  • Espaço em disco equivalente ao tamanho do modelo escolhido (0,5 GB a 10+ GB)

Máquinas sem GPU dedicada ainda conseguem rodar modelos menores com performance aceitável para uso no desenvolvimento e testes.

Baixando e Executando um Modelo LLM no Foundry Local

Após instalar, o próximo passo é escolher e baixar um modelo. O Foundry Local oferece uma lista de modelos disponíveis que você pode explorar antes de decidir. Para ver todos os modelos disponíveis, execute:

foundry model list

Os modelos aparecem com nome, tamanho e tipo. Para quem está começando ou tem hardware limitado, o Qwen 2.5 Instruct 0.5B é a escolha ideal: ocupa apenas 0,5 GB, responde em milissegundos e funciona bem para automações simples.

Para baixar e rodar diretamente, use o comando:

foundry model run qwen2.5-0.5b-instruct

Se o modelo não estiver na sua máquina, o download é feito automaticamente. Com a flag Auto Select, o Foundry Local decide qual versão roda melhor no seu hardware — CPU ou GPU — sem configuração manual. Importante: ao usar o Auto Select, o sistema pode baixar múltiplas versões do modelo para identificar a mais adequada ao seu dispositivo, o que pode aumentar o tempo de download inicial.

Modo interativo: conversando com o modelo no terminal

Após o download, o Foundry Local entra automaticamente no modo interativo — um chatbot rodando 100% na sua máquina. Você digita perguntas diretamente no terminal e recebe respostas sem latência de rede.

O Qwen 2.5 0.5B nos testes se saiu bem em:

  • Operações matemáticas simples e intermediárias
  • Detecção de palavras-chave em textos curtos
  • Automações baseadas em texto com regras simples
  • Geração de respostas curtas sobre temas factuais

As limitações ficam evidentes em perguntas abertas que exigem raciocínio profundo ou contexto histórico complexo — o modelo pode fornecer informações relacionadas sem responder diretamente ao que foi perguntado. Isso é esperado para um modelo de 0,5B parâmetros e reforça a importância de escolher o modelo certo para cada tarefa.

Como Escolher o Modelo Certo para Cada Caso de Uso

Uma das maiores dúvidas ao usar o Foundry Local da Microsoft é qual modelo baixar. A oferta vai de 0,5 GB até mais de 10 GB, e o tamanho impacta diretamente três fatores:

  • Velocidade de resposta — modelos menores respondem em milissegundos; maiores podem levar segundos
  • Capacidade de raciocínio — modelos maiores lidam melhor com tarefas complexas, análise de documentos e geração de código
  • Consumo de recursos — precisa caber inteiramente na memória RAM ou VRAM disponível

Uma dica prática: você pode copiar a lista de modelos do Foundry Local e colar no ChatGPT perguntando “qual modelo é melhor para cada caso de uso?”. Isso foi testado durante a gravação do vídeo e o resultado é uma tabela clara mostrando o Qwen 2.5 0.5B como ideal para comandos de automação leve, baixo consumo e performance em qualquer máquina.

Para cenários mais exigentes — como análise de documentos longos, geração de código complexo ou raciocínio em múltiplos passos — modelos de 7B parâmetros ou maiores são mais adequados, desde que seu hardware suporte.

Foundry Local vs Azure AI Foundry: Quando Usar Cada Um?

Essa é a questão central para qualquer desenvolvedor que descobre o Foundry Local. A resposta depende diretamente do seu caso de uso e infraestrutura disponível:

  • Use Foundry Local quando: precisar de IA offline, quiser custo zero em protótipos e testes, tiver hardware disponível, trabalhar com dados sensíveis que não podem sair da máquina, ou precisar de baixa latência sem depender de internet
  • Use Azure AI Foundry quando: precisar de modelos grandes como GPT-4o ou Phi-4, estiver em produção com alta demanda simultânea, não tiver hardware suficiente para modelos robustos, ou precisar de escalabilidade automática

O Foundry Local também abre oportunidades interessantes para soluções edge: instalar IA em tablets, computadores de campo ou sistemas embarcados que funcionam offline. Imagine um aplicativo que classifica documentos, detecta anomalias ou transcreve áudio em dispositivos sem conexão à internet — o Foundry Local viabiliza exatamente isso, com custo operacional equivalente apenas à energia elétrica consumida pelo hardware.

Integração com Power Platform e outras aplicações

O Foundry Local expõe uma API REST compatível com o padrão OpenAI na porta http://localhost:5272. Isso significa que qualquer cliente que já consome a API da OpenAI pode ser apontado para o endpoint local simplesmente trocando a URL base — sem alterar o código da aplicação.

Para Power Automate e Power Apps, a integração direta não é possível pois essas ferramentas exigem endpoints acessíveis na internet. Contudo, é viável criar um servidor intermediário na mesma rede corporativa ou usar um túnel reverso para expor o endpoint local de forma controlada.

Perguntas Frequentes

O Foundry Local é realmente gratuito?

Sim. A instalação e o uso do Foundry Local são totalmente gratuitos. Você paga apenas pelos recursos do seu computador — energia elétrica, CPU e GPU. Não há cobrança por tokens, chamadas de API ou licença. A Microsoft disponibiliza a ferramenta como parte do ecossistema Azure AI, mas sem custo de nuvem para execução local.

Quais modelos estão disponíveis no Foundry Local?

A lista inclui modelos como Qwen 2.5 (nas versões 0,5B, 1,5B, 3B e 7B), além de outros modelos open source otimizados para execução local. Para ver todos os modelos disponíveis, execute foundry model list no terminal após a instalação. Os modelos são listados com tamanho e descrição para facilitar a escolha conforme seu hardware.

O Foundry Local funciona sem internet após instalar o modelo?

Sim. Após instalar o Foundry Local e baixar o modelo escolhido, todo o processamento é 100% offline. Isso o torna ideal para ambientes corporativos com restrições de segurança, locais sem conectividade confiável ou sistemas embarcados que precisam operar de forma autônoma e contínua.

Preciso de GPU para usar o Foundry Local?

Não é obrigatório. Com a opção Auto Select, o Foundry Local detecta automaticamente se é melhor usar CPU ou GPU no seu computador. Para modelos menores (0,5B a 1,5B parâmetros), um CPU moderno já oferece performance aceitável para desenvolvimento e testes. A GPU acelera significativamente modelos maiores (7B ou mais), mas não é pré-requisito para começar.

É possível usar o Foundry Local com Python ou n8n?

Sim. O Foundry Local expõe um endpoint REST compatível com a API da OpenAI em http://localhost:5272. Você pode usar a biblioteca openai do Python apontando base_url para esse endereço, ou configurar um nó HTTP no n8n para consumir o modelo local como se fosse qualquer outra API de IA.

Conclusão

O Foundry Local da Microsoft é uma das adições mais práticas ao ecossistema de IA para desenvolvedores que querem explorar LLMs sem custo de nuvem. Com dois comandos — um para instalar e outro para rodar o modelo — você tem um assistente de IA local pronto, ideal para prototipagem, automações leves, soluções offline e qualquer projeto onde privacidade e custo zero sejam prioridade.

Assista ao vídeo acima para acompanhar a instalação e os testes na prática, direto no Windows. E nos comentários: qual caso de uso você imagina para rodar IA local no seu projeto? Deixe sua ideia lá embaixo — pode ser o tema do próximo vídeo do canal!

Compartilhe nas Redes Sociais:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *