# Configurando o Ollama em LLMs locais

## Requisitos do sistema

- Pelo menos 8 GB de RAM (16 GB recomendados para melhor desempenho).
- 4 GB de espaço livre em disco para a instalação básica.
- Espaço adicional em disco para os modelos (**Mistral** normalmente requer de 4 GB a 5 GB).

## Processo de instalação

**Para usuários do Windows:**

1. Baixe o instalador do **Ollama** em https://ollama.ai/download/windows
2. Execute o instalador **.msi** baixado e siga o assistente de instalação.

**Para usuários do macOS:**

1. Baixe o arquivo **.dmg** do Ollama em https://ollama.ai/download/mac
2. Abra o arquivo **.dmg** baixado e arraste o Ollama para a sua pasta *Aplicativos*.

![](https://www.manageengine.com/userfiles/866/14262/ckfinder/images/qu/2025/2025_03_11_12_47_571.png)

3. Para configurar o Ollama:
   - Abra o **Ollama** na pasta *Aplicativos*.
   - Conceda as permissões necessárias.
   - Agora você poderá ver o ícone do Ollama ![](https://www.manageengine.com/userfiles/866/14262/ckfinder/images/qu/2025/2025_03_11_12_48_302.png) na barra de menu do seu dispositivo.

**Para usuários do Linux:**

1. Instale o Ollama usando o script oficial de instalação.

```bash
curl -fsSL https://ollama.ai/install.sh | sh
```

2. Inicie o serviço do Ollama.

```bash
systemctl start ollama
```

## Executando o modelo Mistral

Depois de instalar o Ollama, siga estas etapas para baixar e executar o modelo **Mistral**:

1. Abra o seu terminal (Prompt de Comando ou PowerShell no Windows, Terminal no macOS/Linux).
2. Baixe o modelo Mistral.

```bash
ollama run mistral
```

Agora, os arquivos do modelo serão baixados (aproximadamente de 4 GB a 5 GB).

> O tempo de download depende da velocidade da conexão com a internet.

![](https://www.manageengine.com/userfiles/866/14262/ckfinder/images/qu/2025/2025_03_11_12_42_412.png)

3. Teste o modelo com um prompt simples para verificar a instalação.

```text
>> Olá, você pode se apresentar?
```

**Resposta de exemplo**

![](https://www.manageengine.com/userfiles/866/14262/ckfinder/images/qu/2025/2025_03_11_12_41_041.png)

## Tamanho da janela de contexto no Mistral

O tamanho da janela de contexto em modelos de linguagem como o Mistral determina quanto texto o modelo pode processar e lembrar durante uma conversa ou tarefa.

Pense nisso como a memória de trabalho do modelo, como a quantidade de conversas anteriores que ele usa para gerar uma resposta.

Você pode modificar o tamanho da janela de contexto ao executar o modelo.

```bash
ollama run mistral --context 4096
```

### Limitação

Tamanhos maiores de janela de contexto vêm com **aumento dos custos computacionais**. Eles exigem mais memória do sistema e, portanto, tornam o tempo de resposta do modelo mais lento.

Em sistemas com recursos limitados, como laptops ou computadores mais antigos, talvez seja melhor reduzir o tamanho do contexto para melhorar o desempenho.

### Tamanhos de janela de contexto comumente usados

**2048 tokens:** Adequado para conversas simples e tarefas básicas. Ideal para sistemas com RAM limitada e respostas de alta prioridade.

**4096 tokens:** Uma opção equilibrada para a maioria dos casos de uso, oferecendo boa retenção de contexto e mantendo um desempenho razoável.

**8192 tokens:** Ideal para tarefas complexas que exigem contexto extenso, como análise de documentos ou discussões técnicas. Requer mais recursos do sistema.

Ao escolher um tamanho de janela de contexto, considere **tanto as capacidades do seu hardware quanto os requisitos do seu caso de uso**. Monitore o uso de memória do sistema e o desempenho do modelo para encontrar o equilíbrio ideal para as suas necessidades específicas.

## Variáveis de ambiente

O Ollama oferece suporte a várias variáveis de ambiente que permitem personalizar seu comportamento. Duas das variáveis importantes são **OLLAMA_HOST** e **OLLAMA_MODELS**.

### OLLAMA_HOST

A variável **OLLAMA_HOST** é definida para especificar em qual porta a API do Ollama deve escutar conexões de um host.

```bash
export OLLAMA_HOST=0.0.0.0:11434
```

(**o número da porta é definido como 11434 por padrão**)

Essa configuração é crucial quando você deseja acessar o Ollama a partir de outros computadores da sua rede ou quando precisa executar várias instâncias do Ollama em portas diferentes.

> O valor padrão de OLLAMA_HOST (127.0.0.1) permite conexões somente da sua máquina local. No entanto, defini-lo como 0.0.0.0 permite conexões de qualquer interface de rede.

Isso é útil em ambientes de desenvolvimento ao acessar a API de diferentes dispositivos ou ao executar o Ollama em um ambiente conteinerizado.

### OLLAMA_MODELS

```bash
export OLLAMA_MODELS=/path/to/models
```

Essa configuração é crucial quando você deseja armazenar os modelos em um local diferente do padrão.

Ela é útil ao mover modelos para uma unidade maior em vez da unidade local, compartilhá-los entre diferentes instalações do Ollama e mantê-los em um local específico para backup ou fins de conformidade.

## Solução de problemas

Aqui estão os problemas comuns e suas soluções.

### 1. Erro "Command not found":

- Certifique-se de que o Ollama esteja instalado corretamente.
- Verifique se a variável de ambiente PATH inclui o **Ollama**.
- Reinicie o terminal.

### 2. Falha no download do modelo:

- Verifique sua conexão com a internet.
- Verifique se você tem espaço suficiente em disco.
- Tente executar o comando **ollama pull mistral**.

### 3. Alto uso de RAM:

- Ajuste o tamanho do contexto usando a flag **--context**.
- Feche outros aplicativos que consomem muitos recursos.
- Considere usar uma variante de modelo mais leve.

## Obtendo ajuda

- Visite a documentação oficial: https://ollama.ai/docs
- Consulte o repositório no GitHub: https://github.com/ollama/ollama
- Entre na comunidade do Discord para obter suporte

## Boas práticas

**Gerenciamento de recursos**

- Monitore os recursos do sistema enquanto executa modelos.
- Feche o modelo quando não estiver em uso para liberar memória.
- Use tamanhos de janela de contexto adequados para o seu hardware.

**Considerações de segurança e otimização de desempenho**

- Mantenha o Ollama atualizado para a versão mais recente.
- Use aceleração por GPU, se disponível.
- Considere usar modelos quantizados para melhor desempenho.