Foundry Local: Rode LLMs da Microsoft Grátis no Windows

Compartilhe nas Redes Sociais:

O Foundry Local da Microsoft chegou para mudar o jogo para desenvolvedores: agora é possível rodar modelos de IA diretamente na sua máquina, sem pagar nada por computação em nuvem. Se você já usou o Azure AI Foundry e pagou por cada requisição, essa novidade chega como uma alternativa zero-custo para desenvolvimento, testes e casos de uso em produção com hardware local. Neste artigo, você vai aprender como instalar o Foundry Local no Windows, baixar um modelo leve e entender quando usar IA offline em vez da nuvem.

O que é o Foundry Local da Microsoft?

O Foundry Local é uma solução da Microsoft para rodar modelos de linguagem grandes (LLMs) diretamente no seu dispositivo — seja no CPU, GPU ou nos dois automaticamente. Em vez de enviar suas requisições para o Azure AI Foundry ou OpenAI, o processamento acontece 100% local, usando os recursos do seu próprio hardware.

Na prática, isso significa alguns benefícios concretos:

Custo operacional zero — sem cobrança por tokens ou chamadas de API
Funcionamento offline — ideal para ambientes sem internet ou com restrições de segurança empresarial
Flexibilidade de modelos — escolha entre modelos leves (0,5 GB) até modelos mais robustos (10+ GB)
Compatibilidade com API padrão OpenAI — integre com aplicações existentes mudando apenas a URL base
Privacidade total dos dados — nenhuma informação sai do seu dispositivo

Vale destacar que o Foundry Local não é um produto experimental: a Microsoft disponibiliza os mesmos modelos do Azure AI Foundry, empacotados para execução local. A ferramenta detecta automaticamente se é melhor usar a CPU ou a GPU da sua máquina, otimizando a performance sem configuração manual.

Como Instalar o Foundry Local no Windows com Winget

A instalação do Foundry Local Microsoft no Windows é simples graças ao winget (Windows Package Manager). Você não precisa configurar ambientes virtuais do Python ou baixar arquivos manualmente — um único comando resolve tudo.

Abra o Prompt de Comando como administrador e execute:

winget install Microsoft.FoundryLocal

O processo pode levar entre 20 a 30 minutos dependendo da sua conexão e do hardware. Após a instalação, o Foundry Local estará disponível como comando no terminal do Windows e também no terminal integrado do VS Code.

Você também pode instalar via pip se preferir gerenciar pelo Python:

pip install foundry-local

O método winget é mais recomendado para uso no Windows porque já cuida de todas as dependências do sistema operacional, incluindo os runtimes necessários para execução dos modelos.

Requisitos mínimos para rodar o Foundry Local

Windows 10 ou superior (64-bit)
Mínimo de 8 GB de RAM para modelos leves (0,5B a 1,5B parâmetros)
16 GB ou mais de RAM para modelos intermediários (3B a 7B parâmetros)
GPU com suporte CUDA ou AMD ROCm (opcional, mas recomendado para modelos maiores)
Espaço em disco equivalente ao tamanho do modelo escolhido (0,5 GB a 10+ GB)

Máquinas sem GPU dedicada ainda conseguem rodar modelos menores com performance aceitável para uso no desenvolvimento e testes.

Baixando e Executando um Modelo LLM no Foundry Local

Após instalar, o próximo passo é escolher e baixar um modelo. O Foundry Local oferece uma lista de modelos disponíveis que você pode explorar antes de decidir. Para ver todos os modelos disponíveis, execute:

foundry model list

Os modelos aparecem com nome, tamanho e tipo. Para quem está começando ou tem hardware limitado, o Qwen 2.5 Instruct 0.5B é a escolha ideal: ocupa apenas 0,5 GB, responde em milissegundos e funciona bem para automações simples.

Para baixar e rodar diretamente, use o comando:

foundry model run qwen2.5-0.5b-instruct

Se o modelo não estiver na sua máquina, o download é feito automaticamente. Com a flag Auto Select, o Foundry Local decide qual versão roda melhor no seu hardware — CPU ou GPU — sem configuração manual. Importante: ao usar o Auto Select, o sistema pode baixar múltiplas versões do modelo para identificar a mais adequada ao seu dispositivo, o que pode aumentar o tempo de download inicial.

Modo interativo: conversando com o modelo no terminal

Após o download, o Foundry Local entra automaticamente no modo interativo — um chatbot rodando 100% na sua máquina. Você digita perguntas diretamente no terminal e recebe respostas sem latência de rede.

O Qwen 2.5 0.5B nos testes se saiu bem em:

Operações matemáticas simples e intermediárias
Detecção de palavras-chave em textos curtos
Automações baseadas em texto com regras simples
Geração de respostas curtas sobre temas factuais

As limitações ficam evidentes em perguntas abertas que exigem raciocínio profundo ou contexto histórico complexo — o modelo pode fornecer informações relacionadas sem responder diretamente ao que foi perguntado. Isso é esperado para um modelo de 0,5B parâmetros e reforça a importância de escolher o modelo certo para cada tarefa.

Como Escolher o Modelo Certo para Cada Caso de Uso

Uma das maiores dúvidas ao usar o Foundry Local da Microsoft é qual modelo baixar. A oferta vai de 0,5 GB até mais de 10 GB, e o tamanho impacta diretamente três fatores:

Velocidade de resposta — modelos menores respondem em milissegundos; maiores podem levar segundos
Capacidade de raciocínio — modelos maiores lidam melhor com tarefas complexas, análise de documentos e geração de código
Consumo de recursos — precisa caber inteiramente na memória RAM ou VRAM disponível

Uma dica prática: você pode copiar a lista de modelos do Foundry Local e colar no ChatGPT perguntando “qual modelo é melhor para cada caso de uso?”. Isso foi testado durante a gravação do vídeo e o resultado é uma tabela clara mostrando o Qwen 2.5 0.5B como ideal para comandos de automação leve, baixo consumo e performance em qualquer máquina.

Para cenários mais exigentes — como análise de documentos longos, geração de código complexo ou raciocínio em múltiplos passos — modelos de 7B parâmetros ou maiores são mais adequados, desde que seu hardware suporte.

Foundry Local vs Azure AI Foundry: Quando Usar Cada Um?

Essa é a questão central para qualquer desenvolvedor que descobre o Foundry Local. A resposta depende diretamente do seu caso de uso e infraestrutura disponível:

Use Foundry Local quando: precisar de IA offline, quiser custo zero em protótipos e testes, tiver hardware disponível, trabalhar com dados sensíveis que não podem sair da máquina, ou precisar de baixa latência sem depender de internet
Use Azure AI Foundry quando: precisar de modelos grandes como GPT-4o ou Phi-4, estiver em produção com alta demanda simultânea, não tiver hardware suficiente para modelos robustos, ou precisar de escalabilidade automática

O Foundry Local também abre oportunidades interessantes para soluções edge: instalar IA em tablets, computadores de campo ou sistemas embarcados que funcionam offline. Imagine um aplicativo que classifica documentos, detecta anomalias ou transcreve áudio em dispositivos sem conexão à internet — o Foundry Local viabiliza exatamente isso, com custo operacional equivalente apenas à energia elétrica consumida pelo hardware.

Integração com Power Platform e outras aplicações

O Foundry Local expõe uma API REST compatível com o padrão OpenAI na porta http://localhost:5272. Isso significa que qualquer cliente que já consome a API da OpenAI pode ser apontado para o endpoint local simplesmente trocando a URL base — sem alterar o código da aplicação.

Para Power Automate e Power Apps, a integração direta não é possível pois essas ferramentas exigem endpoints acessíveis na internet. Contudo, é viável criar um servidor intermediário na mesma rede corporativa ou usar um túnel reverso para expor o endpoint local de forma controlada.

Perguntas Frequentes

O Foundry Local é realmente gratuito?

Sim. A instalação e o uso do Foundry Local são totalmente gratuitos. Você paga apenas pelos recursos do seu computador — energia elétrica, CPU e GPU. Não há cobrança por tokens, chamadas de API ou licença. A Microsoft disponibiliza a ferramenta como parte do ecossistema Azure AI, mas sem custo de nuvem para execução local.

Quais modelos estão disponíveis no Foundry Local?

A lista inclui modelos como Qwen 2.5 (nas versões 0,5B, 1,5B, 3B e 7B), além de outros modelos open source otimizados para execução local. Para ver todos os modelos disponíveis, execute foundry model list no terminal após a instalação. Os modelos são listados com tamanho e descrição para facilitar a escolha conforme seu hardware.

O Foundry Local funciona sem internet após instalar o modelo?

Sim. Após instalar o Foundry Local e baixar o modelo escolhido, todo o processamento é 100% offline. Isso o torna ideal para ambientes corporativos com restrições de segurança, locais sem conectividade confiável ou sistemas embarcados que precisam operar de forma autônoma e contínua.

Preciso de GPU para usar o Foundry Local?

Não é obrigatório. Com a opção Auto Select, o Foundry Local detecta automaticamente se é melhor usar CPU ou GPU no seu computador. Para modelos menores (0,5B a 1,5B parâmetros), um CPU moderno já oferece performance aceitável para desenvolvimento e testes. A GPU acelera significativamente modelos maiores (7B ou mais), mas não é pré-requisito para começar.

É possível usar o Foundry Local com Python ou n8n?

Sim. O Foundry Local expõe um endpoint REST compatível com a API da OpenAI em http://localhost:5272. Você pode usar a biblioteca openai do Python apontando base_url para esse endereço, ou configurar um nó HTTP no n8n para consumir o modelo local como se fosse qualquer outra API de IA.

Conclusão

O Foundry Local da Microsoft é uma das adições mais práticas ao ecossistema de IA para desenvolvedores que querem explorar LLMs sem custo de nuvem. Com dois comandos — um para instalar e outro para rodar o modelo — você tem um assistente de IA local pronto, ideal para prototipagem, automações leves, soluções offline e qualquer projeto onde privacidade e custo zero sejam prioridade.

Assista ao vídeo acima para acompanhar a instalação e os testes na prática, direto no Windows. E nos comentários: qual caso de uso você imagina para rodar IA local no seu projeto? Deixe sua ideia lá embaixo — pode ser o tema do próximo vídeo do canal!