Loading
Up To date For Daily News Timeline
Up To date For Daily News Timeline

LLMs locais com Ollama: rode IA na sua infraestrutura sem enviar dados para a nuvem



Uma das principais barreiras para adoção de IA em empresas que lidam com dados sensíveis é a preocupação com privacidade. O Ollama resolve isso — permite rodar modelos de linguagem de ponta 100% localmente, sem que nenhum dado saia da sua infraestrutura.

O que é o Ollama?

O Ollama é uma ferramenta open source que simplifica radicalmente a instalação e execução de LLMs em hardware local. Funciona como um gerenciador de modelos — similar ao Docker para containers, mas para modelos de IA. Com ele você pode rodar modelos como Llama 3.3, Mistral 7B, DeepSeek-R1 e Gemma 3.

Requisitos de hardware

Modelo Parâmetros RAM mínima GPU
Mistral 7B 7B 8 GB Opcional
Llama 3.2 3B 4 GB Opcional
Llama 3.3 70B 48 GB Recomendada
DeepSeek-R1 7B 8 GB Opcional

💡 Para PMEs sem GPU dedicada, os modelos de 7B rodam bem em servidores com 16–32 GB de RAM apenas com CPU. A velocidade é menor (2–5 tokens/segundo), mas suficiente para uso assíncrono.

1. Instalação

# Linux (Debian/Ubuntu)
curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Ou via Docker (recomendado para servidores de produção):

# docker-compose.yml
services:
  ollama:
    image: ollama/ollama:latest
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama

volumes:
  ollama_data:

2. Baixar e rodar modelos

# Baixar Llama 3.2 (~2GB)
ollama pull llama3.2

# Baixar Mistral 7B (~4GB)
ollama pull mistral

# Iniciar chat interativo
ollama run llama3.2

3. API REST — integrar com aplicações

O Ollama expõe uma API REST compatível com a API da OpenAI:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2",
    "prompt": "Explique o conceito de Zero Trust em 3 parágrafos.",
    "stream": false
  }'

Compatibilidade direta com o OpenAI SDK — basta apontar para o endpoint local:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Resuma as principais CVEs de maio 2026"}]
)
print(response.choices[0].message.content)

4. Open WebUI — interface para usuários não técnicos

O Open WebUI oferece uma interface similar ao ChatGPT que se conecta ao Ollama. Acesse http://seu-servidor:3000 após subir o container:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui_data:/app/backend/data

5. Segurança — não expor o Ollama para a internet

Por padrão, o Ollama escuta em 0.0.0.0:11434. Em produção, restrinja para localhost e use um proxy reverso com autenticação para acesso remoto:

# /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_HOST=127.0.0.1:11434"

Conclusão

O Ollama democratizou o acesso a LLMs locais. Para empresas que lidam com dados sigilosos — contratos, dados de saúde, informações financeiras —, rodar IA on-premise não é mais uma opção cara e complexa. Com hardware modesto e 30 minutos de configuração, é possível ter um assistente de IA funcional que nunca envia um byte para fora da sua rede.

Referências

  1. Ollama. Ollama Documentation. Disponível em: ollama.com
  2. Open WebUI. Open WebUI Documentation. Disponível em: docs.openwebui.com
  3. Meta AI. Llama 3 Model Card. Disponível em: llama.meta.com

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed