Requisitos locais de hardware para lhamas

Informatec Digital » Recursos » Requisitos de hardware para usar o Ollama sem problemas

A viabilidade do Ollama depende principalmente da RAM, da GPU e da quantização do modelo, e não tanto do próprio aplicativo.
Com 16 GB de RAM e uma GPU de 8 a 12 GB, modelos quantizados de 7 a 13 bits podem ser processados sem problemas para uso diário.
Os modelos 30B–70B exigem GPUs com 16–32 GB de VRAM e pelo menos 32 GB de RAM para serem realmente utilizáveis.
Escolher o tamanho e o formato de modelo corretos para o seu hardware evita travamentos e permite uma IA local privada e eficiente.

Se você está pensando em executar modelos de inteligência artificial no seu próprio computador, mais cedo ou mais tarde você vai se deparar com o Ollama. E é exatamente aí que surge a grande questão: Quais são os requisitos de hardware necessários para que os modelos funcionem de forma realmente fluida e sem travamentos? Não basta que liguem; o essencial é que possam ser usadas confortavelmente no dia a dia e que você saiba como funcionam. tipos de hardware de computador.

Ao longo deste artigo, analisaremos isso em detalhes. O que o Ollama faz, quais são os requisitos dos diferentes modelos (7B, 13B, 70B, etc.), como a CPU, a GPU, a RAM e o disco afetam o desempenho e quais configurações são adequadas para a sua situação?Quer você queira um assistente de texto simples ou pretenda lidar com monstros como o Llama 3, com dezenas de bilhões de parâmetros ou modelos de visão e OCR.

O que é Ollama e por que o hardware faz tanta diferença?

Ollama é, em essência, um cliente de modelo de linguagem que permite executar LLMs localmente na sua máquina, sem depender da nuvem. Ele usa mecanismos como lhama.cpp para realizar a inferência e encapsular toda a complexidade em uma ferramenta simples, com CLI e API REST, também ajudando a compreender os conceitos do redes neurais artificiais (Artificial Neural Networks) que estão por trás dos modelos.

Sua função é ser o “centro de comando” a partir do qual Você pode baixar, gerenciar e executar modelos como Llama 3, Mistral, Gemma, Phi, Qwen, DeepSeek ou modelos multimodais como Llava.A grande vantagem é que você pode usá-las completamente offline, mantendo seus dados em casa e sem pagar por cada token, como acontece com as APIs na nuvem.

No entanto, embora o próprio Ollama pese pouco e não seja exigente, Os modelos que ele executa são, de fato, muito exigentes em termos de recursos.Cada LLM consiste em milhões ou bilhões de parâmetros, o que se traduz em gigabytes de memória e armazenamento, além de uma carga pesada na CPU e, se disponível, na GPU.

Portanto, quando alguém tenta executar um modelo grande (por exemplo, uma lhama de 70 bits) em um computador com uma CPU potente, mas uma GPU dedicada e apenas a quantidade suficiente de RAM, O resultado geralmente é que "funciona, funciona", mas é tão lento que se torna praticamente inútil.A chave é equilibrar adequadamente CPU, GPU, RAM, disco e tipo de modelo.

Tipos de modelos no Ollama e como eles afetam os requisitos

Na biblioteca da Ollama, você encontrará modelos organizados por famílias e tamanhos: 1B, 2B, 4B, 7B, 13B, 30B, 65B, 70B, 405B…Esse número (B de bilhões) indica a quantidade aproximada de parâmetros e é um dos fatores que mais determinam o hardware necessário.

Podemos agrupá-los de forma geral em quatro categoriaso que ajuda bastante a estimar com qual máquina você precisa se familiarizar para cada grupo de modelos e quantificações:

Mini modelos (270M – 4B): projetado para dispositivos modestos (Laptops simples, até mesmo alguns celulares ou mini-PCs). Rápidos, mas com menor capacidade de raciocínio.
Modelos pequenos (4B – 14B): ideal como modelos “domésticos” equilibradosBom para bate-papo geral, tarefas de escritório, auxílio básico em programação, etc.
Modelos médios (14B – 70B)Eles já estão jogando em um nível diferente; Eles precisam de hardware potente.Bastante memória RAM e, se possível, uma placa de vídeo com bastante VRAM.
Modelos grandes (> 70B)São criaturas feitas para infraestruturas muito sérias (GPUs de última geração, múltiplas placas gráficas, servidores dedicados, Macs de última geração bem utilizados, etc.).

Além do tamanho, outros fatores entram em jogo. quantizaçãoEm Ollamama você verá sufixos como q4_K_M, q5_1, q3_K_S, q8_0, f16etc. Esses formatos indicam Qual o grau de compressão dos pesos? do modelo:

FP16 / FP32 (f16, f32): mal comprimido, Qualidade superior, mas consumo de memória brutal.Um 7B em FP16 pode chegar a mais de 20 GB de VRAM.
Q4 (q4_0, q4_K_M…)Quantização de 4 bits, Redução significativa do tamanho com impacto moderado na qualidade.Geralmente são o "ponto ideal".
Q3, Q2 (q3_K_S, q2_K…): quantizações mais agressivas, Tamanho muito pequeno em troca de uma ligeira perda de precisão.Útil em hardware com recursos muito limitados.
Q5, Q6, Q8: etapas intermediárias entre compressão forte e FP16; Maior qualidade, maior consumo..

A consequência prática é clara: O mesmo modelo 7B pode ocupar aproximadamente 26 GB em FP16 ou cerca de 4 GB em Q4.Isso se traduz diretamente na quantidade de VRAM da GPU necessária e na quantidade de RAM que deve suportar a carga.

Requisitos mínimos e recomendados de hardware para o Ollama na rede local.

Se sua preocupação é se seu computador consegue executar o Ollama, a resposta geralmente é sim; a questão é... Qual modelo você conseguirá usar com facilidade?Vamos analisar componente por componente: RAM, CPU, GPU e disco, com recomendações realistas baseadas na prática e na documentação de diversos guias especializados.

RAM: o recurso crítico definitivo

RAM é o primeiro gargalo Quando falamos de mestrados em direito locais, de forma geral, podemos considerar as seguintes faixas de preço:

8 GB de RAM: o aspecto prático. Permite modelos pequenos (1B, 3B, alguma variante altamente quantizada de 7B)No entanto, você notará limitações, especialmente se o sistema e o navegador já estiverem consumindo muita memória. É provável que tudo funcione um pouco mais lento e com mais travamentos.
16 GB de RAM: o padrão razoável hoje em dia. Ideal para modelos 7B e até mesmo 13B quantizados em Q4.Principalmente se você estiver usando GPUs. Você pode trabalhar com chats complexos sem que o sistema fique lento.
32 GB de RAM ou maisRecomendado se você quiser modelos médios (30B, 40B, 70B) ou realizar tarefas mais complexas, como contextos muito longos, vários modelos em paralelo, servidores multiusuário ou ferramentas gráficas do tipo Open WebUI no Ollama.

O que é um chipset de computador e por que ele afeta o desempenho?

Lembre-se de que a quantidade de RAM não é determinada apenas pelo modelo: Sistema operacional, navegador, IDE, Docker, Open WebUI, etc., também dependem disso.Se você deseja liberar memória em cenários específicos, pode aprender como. reduzir o consumo de RAM Em aplicações como o navegador, por exemplo. Se você está pensando em uso intensivo, 16 GB é atualmente o "mínimo confortável" e 32 GB começa a ser uma quantidade realmente generosa.

CPU: Instruções modernas e número de núcleos

O Ollama pode rodar apenas na CPU, mas a experiência varia bastante dependendo do processador. Mais do que o número de núcleos, É importante ter suporte para conjuntos de instruções avançados como AVX2 e, melhor ainda, AVX-512., que aceleram as operações matriciais e vetoriais amplamente utilizadas em LLMs.

Uma orientação razoável seria:

Mínimo aceitávelUm processador quad-core moderno (por exemplo, um Intel i5 de última geração ou um processador Ryzen equivalente) com suporte a AVX2. Você poderá Execute os modelos 7B com paciência, especialmente se estiverem bem quantizados..
Recomendado: tipo de processadores mais recentes Intel de 11ª geração ou posterior ou AMD Zen4, com 8 núcleos ou mais e suporte a AVX-512 sempre que possível. Dessa forma, você obtém Tempos de resposta aprimorados e menos gargalos, mesmo com GPUs..

Se a sua ideia é usar modelos muito grandes (por exemplo, tentar um Llama 3 de 70 bits com uma CPU + GPU modestas), O processador sofrerá e você notará tempos de geração de tokens muito altos.Nessas situações, o mais sensato é optar por modelos menores ou investir em uma GPU adequada.

GPU e VRAM: quando são essenciais e quanta é necessária?

A placa de vídeo não é obrigatória, mas marca uma virada. Uma placa de vídeo decente com VRAM suficiente pode transformar uma experiência lenta em algo perfeitamente utilizável., especialmente com modelos de 7B a 13B e modelos quantizados.

Como uma referência muito útilPara modelos quantizados (aproximadamente Q4), pode-se estimar algo como isto:

7B → ~4 GB de VRAM
13B → ~8 GB de VRAM
30B → ~16 GB de VRAM
65-70B → ~32 GB de VRAM

Esses são valores aproximados, mas deixam claro que Uma placa de vídeo do tipo RTX 2060 SUPER com 8 GB de VRAM é mais do que suficiente para 7B e consegue lidar com 13B, mas fica aquém para 70B. Mesmo que você tenha um i9 com 64 GB de RAM, o sistema será forçado a distribuir grande parte da carga entre a RAM e a CPU, e a latência aumentará drasticamente.

Em termos práticos:

Com 4-6 GB de VRAM: focar em modelos 7B bem quantizadosFuncionam muito bem para bate-papo, escrita e tarefas em geral.
Com 8-12 GB de VRAMVocê pode trabalhar confortavelmente com 7B e 13B e até mesmo alguns 30B se você estiver disposto a ir um pouco mais devagar.
Com 20-24 GB de VRAMVocê está entrando agora no território de Modelos 30B-40B com considerável dignidadee alguns 70B altamente quantizados, especialmente se você tiver um bom suporte de RAM.
Com 32 GB de VRAM ou mais: é quando 70B começa a parecer bem razoável. Para uso interativo, desde que o restante da equipe acompanhe.

Para um modelo OCR ou outros modelos especiais (por exemplo, visão), Uma placa de vídeo com 20 a 24 GB de VRAM é uma base muito sólida para um desempenho fluido.Principalmente se o modelo envolver dezenas de bilhões de parâmetros. Para variantes de OCR ou visão mais leves (2B-7B), 8-12 GB seriam perfeitamente suficientes.

Armazenamento em disco: quanto espaço os modelos ocupam?

Em relação ao espaço em disco, o próprio aplicativo Ollama ocupa muito pouco espaço; o que realmente ocupa espaço são os modelos. Em um ambiente básico ou de teste, alguns poucos serão suficientes. 50 GBMas se você começar a colecionar miniaturas, as coisas saem do controle rapidamente.

Como um guia geral para modelos quantizados:

Modelos pequenos (1B-4B) → em torno de 2 GB por modelo.
Modelos de tamanho médio (7B-13B) → normalmente 4-8 GB por modelo de acordo com a quantificação.
Modelos grandes (30B-70B) → facilmente 16-40 GB cada um.
Modelos muito grandes (> 100B) → pode exceder 200 GB por modelo, podendo até mesmo ultrapassar terabytes em alguns casos extremos.

O ideal é usar SSD rápido (NVMe, se possível) para tornar o carregamento inicial do modelo mais rápido. Além disso, o Ollama permite Alterar o caminho onde os modelos estão armazenados. usando a variável de ambiente MODELOS_DE_FORNOAssim, você pode usar um disco rígido secundário de grande capacidade e deixar o disco rígido principal menos cheio; para obter mais informações sobre espaço e tipos de disco, consulte o guia de hardware de armazenamento.

Requisitos específicos para executar modelos específicos com o Ollama

Embora cada modelo tenha suas nuances, com o ecossistema atual da Ollama, algumas [oportunidades] podem surgir. diretrizes claras Para categorias de uso típicas: bate-papo geral, codificação, modelos de visão/OCR e modelos gigantes do tipo 70B.

Modelos de bate-papo gerais (Lhama, Mistral, Gemma, Rainha…)

Para uso típico do tipo "ChatGPT local" com modelos como Llama 3.x 7B/8B, Mistral 7B, Gemma 2B/7B ou Qwen de tamanho médioHoje em dia, algo razoável seria algo como isto:

Recomendação mínima:
- Processador quad-core moderno com AVX2.
- 16 GB de RAM.
- Sem placa gráfica dedicada ou com placa gráfica básica com 4 a 6 GB de VRAM.
- Pelo menos 50 GB de SSD para o sistema + um ou dois modelos.
Configuração ideal para ter bastante espaço livre com 7B-13B:
- Processador com 8 núcleos ou mais (i7/i9 moderno ou Ryzen 7/9).
- 32 GB de RAM Se você quiser manter muitas coisas em aberto.
- GPU com 8-12 GB de VRAM (RTX 3060/3070 ou equivalente, AMD RX 6700 ou superior, ou um Mac com um M1/M2/M3 bem utilizado).
- Um SSD de 1 TB é suficiente se você pretende colecionar modelos.

Como trocar a pasta térmica passo a passo e com segurança.

Nestes cenários, Os modelos 7B com quantização Q4_K_M ou Q5_K_M funcionam muito bem. e oferecem qualidade mais do que suficiente para uso pessoal, documentação técnica, tarefas de estudo ou apoio à escrita.

Modelos de codificação (DeepSeek, CodeLlama, Phi orientado a código)

Modelos especializados em programação geralmente têm necessidades semelhantes às de salas de bate-papo gerais do mesmo tamanhoMas é aconselhável deixar uma margem um pouco maior em RAM e VRAM são necessárias se você for usá-las juntamente com uma IDE pesada e muitos projetos abertos..

Por exemplo, para usar algo como DeepSeek-Coder de 7B-8B ou CodeLlama de tamanho similar sob condiçõesUma combinação bastante razoável seria:

CPU núcleos modernos de 6 a 8.
32 GB de RAM Se você trabalha com várias ferramentas ao mesmo tempo (IDE, navegador com abas, Docker, etc.).
GPU com pelo menos 8 GB de VRAM Para mover o modelo suavemente.

Ele também funciona em hardware menos potente, mas você notará Tempos de resposta mais lentos ao gerar blocos longos de código ou análises complexas.Para modelos compactos, tipo Phi-4 Mini Os requisitos são muito menores e o desempenho é bom mesmo em sistemas com 16 GB de RAM e uma placa de vídeo leve.

Visão e modelos OCR (Chave, modelos OCR, multimodal)

Modelos com recursos de processamento de imagem (visão/OCR), como Llava As variantes multimodais do Llama 3.x, bem como modelos OCR específicos, adicionam uma camada extra de complexidade. No nível de hardware, Eles atendem aos requisitos de um modelo de texto do mesmo tamanho, mas com maior benefício do uso de GPUs..

Se estivermos falando de um modelo OCR de tamanho médio (digamos, na faixa de 7B a 13B) e você quiser usá-lo localmente de forma confortável para reconhecer documentos, imagens digitalizadas, etc., É sensato sugerir algo como:

GPU com 20-24 GB de VRAM se o modelo for realmente grande ou se você quiser deixar quase todo o processamento na placa.
GPU com 8-12 GB de VRAM Se você escolher variantes mais leves e bem quantizadas, o programa continuará funcionando bem, desde que você não abuse do tamanho da imagem ou de contextos gigantescos.
Mínimo de 16 GB de RAM, embora 32 GB ofereçam uma margem bastante confortável para uso intensivo.
CPU moderna para que não haja gargalo quando a GPU estiver em uso.

A resposta direta para a pergunta típica "posso executar um modelo de OCR em uma GPU com 20-24 GB de VRAM?" é que sim. Sim, é uma excelente gama para modelos de visão/OCR de médio a grande porte na Ollama.contanto que você tenha memória RAM suficiente e um processador decente.

Modelos gigantes (Lhama 3:70B e similares)

Tentando mover um Chamada 3 de 70B com uma CPU muito potente (por exemplo, um i9 de 11ª geração) e 64 GB de RAM, mas uma placa de vídeo como uma RTX 2060 SUPER de 8 GB. É um exemplo perfeito de "sim, mas não". O modelo pode até carregar eventualmente, mas:

Parte do modelo não cabe na VRAM e depende muito da RAM.
A CPU tem que realizar uma grande quantidade de trabalho de inferência.
O tempo gasto com cada ficha aumenta drasticamente e a experiência torna-se praticamente inutilizável..

Para que um modelo 70B faça sentido em ambientes domésticos ou semiprofissionais, Você precisa, no mínimo, deAlgo nessa linha:

32 GB de RAM como configuração básica, 64 GB se você precisar de mais espaço..
GPU com pelo menos 24-32 GB de VRAM para carregar a maior parte do modelo com uma quantização razoável (Q4_K_M ou similar).
Processador potente de última geração com 8 a 16 núcleos.

Se você não atingir esses valores, É muito mais prático usar modelos 7B-13B bem quantizados. Ou, se você realmente precisa de 70 bits para obter qualidade, considere um servidor especializado (local ou na nuvem), um Mac muito potente ou várias GPUs trabalhando em paralelo.

Requisitos para instalar o Ollama em um VPS ou servidor

Outra opção muito comum é montar a lhama em um VPS ou servidor dedicado e consumi-lo via API ou interface web (por exemplo, com Open WebUI). Isso envolve não apenas recursos, mas também o sistema operacional e as permissões.

Em guias de provedores como o da Hostinger. Recomenda-se o seguinte mínimo: Para um VPS voltado para o Ollama:

RAM: mínimo 16 GB para que os modelos de pequeno/médio porte não sobrecarreguem o sistema.
CPU: 4-8 vCoresdependendo do tamanho dos modelos e do número de usuários simultâneos.
Armazenamento: mínimo de 12 GBNo entanto, na prática, é aconselhável optar por uma capacidade maior (50-100 GB) se você pretende testar vários modelos.
OS: sobre tudo Linux, com preferência por Ubuntu 22.04 ou superior, ou uma versão estável recente do Debian..
Acesso root ou permissões sudo para instalar dependências, configurar o systemd, etc.

Se o seu VPS incluir uma GPU NVIDIA, você precisará de Instale e configure o CUDA ou o kit de ferramentas de contêiner da NVIDIA. Se você estiver usando Docker, com AMD, o ROCm é normalmente usado no Linux e os drivers Adrenalin apropriados no Windows. Em ambientes sem GPU, o servidor dependerá da CPU e da RAM, então não economize nesses recursos; você também pode gerenciá-lo remotamente usando conexão de área de trabalho remota Se você precisar de uma interface gráfica.

Nano Banana: O que é e como funciona o modelo do Google

Cenários de hardware específicos e quais modelos usar

Para garantir que tudo o que foi mencionado acima não permaneça puramente teórico, pode ser útil analisar algumas combinações típicas de hardware e Quais tipos de modelos são adequados para cada caso? usando Ollama.

Computador de mesa modesto ou laptop de tamanho médio

Vamos imaginar uma equipe típica.:

Processador i5 ou Ryzen 5 de alguns anos atrás (4 a 6 núcleos).
16 GB de RAM.
GPU integrada ou dedicada de 4 GB.
SSD de 512 GB.

Nesse cenário, o mais sensato é buscar:

Modelos 1B-3B quantizados (Gemma 2B, Phi-4 Mini, Llama 3.x 1B) para máxima fluidez.
Modelos 7B no quarto trimestre Se você aceitar um tempo de resposta um pouco maior.
Ao usar o Ollama com um terminal e, se desejar uma interface web, abra o WebUI com cuidado para não sobrecarregar a RAM.

Você poderá usar seu assistente de texto local, fazer resumos, algumas análises e tarefas de programação simples, mas Não é o ambiente ideal para os modelos 13B e superiores..

Equipamentos de gama média a alta focados em IA local.

Aqui estamos falando de um tipo de PC:

Processador moderno i7/i9 ou Ryzen 7/9, com 8 a 16 núcleos.
32 GB de RAM.
GPU com 12-24 GB de VRAM (RTX 4070/4080, 3090, 4090, equivalentes da AMD ou similares).
SSD de 1 a 2 TB.

Essa configuração amplia consideravelmente o leque de possibilidades.:

Modelos 7B-13B no 4º/5º trimestre Para bate-papo, código, análise de dados… com tempos de resposta muito bons.
Modelos 30B e alguns 70B quantizado Se você aceitar um pouco mais de latência.
Modelos de visão/OCR Porte médio, utilizando amplamente a GPU.

É o tipo de máquina que você pode montar. Um ambiente de IA local robusto, com múltiplos modelos, interface web, integração com API REST e um fluxo de trabalho profissional. sem depender de serviços externos.

Servidor ou estação de trabalho "Beast"

No topo de linha Existem ambientes com:

Várias GPUs com 24 a 48 GB de VRAM cada, ou uma única GPU de alto desempenho.
64-128 GB de RAM.
Processadores com muitos núcleos, como os modelos Threadripper ou Xeon mais recentes.

Aqui é onde Modelos gigantes (>70B, MoE, com muitos recursos visuais, etc.) estão começando a se tornar realistas. mesmo com vários usuários simultâneos ou integrações complexas. Obviamente, trata-se de um cenário de alto custo, mas também permite ter recursos semelhantes a algumas APIs comerciais, com controle total dos dados dentro da sua própria infraestrutura.

Dicas práticas para tirar o máximo proveito do seu equipamento Ollama

Além de simplesmente comprar mais RAM ou uma placa de vídeo melhor, existem diversas práticas que Elas ajudam a tirar o máximo proveito do que você já tem e a evitar surpresas ao executar modelos grandes. Com Ollama.

Para começar, é aconselhável Escolha o modelo adequado de acordo com o uso.Não faz sentido usar uma placa de 70B para escrever e-mails simples quando uma de 7B bem configurada é perfeitamente adequada. Da mesma forma, uma de 30B não faz sentido se sua GPU tiver apenas 6 GB de VRAM; uma de 7B será uma escolha melhor no quarto trimestre.

Outra medida fundamental é manipular os parâmetros de execução (temperatura, num_ctx, num_predict, etc.), seja no arquivo de modelo ou via CLI/API. Usando contextos ridiculamente grandes (num_ctx de 32k ou mais) Com pouca RAM ou VRAM, o sistema ficará mais lento sem, em muitos casos, contribuir muito para o seu desempenho.

É também aconselhável Monitorar quais modelos estão carregados e em qual processador. uso ollama psAli você poderá ver se o modelo está sendo executado na GPU ou na CPU e qual o tamanho que ele carregou. Ajuste a variável. MANTENHA A LHAMA VIVA Isso ajuda os modelos a liberarem memória quando não estão em uso, liberando assim recursos.

Por último, lembre-se disso A quantização é sua aliadaCriar variantes Q4_K_M ou Q5_K_M de um modelo original em FP16 permite aproveitar hardware muito mais modesto com uma perda de qualidade que muitas vezes é quase imperceptível para o uso no mundo real.

Depois de analisar todo o quadro, a ideia mais clara é que A parte exigente não é a Ollama, mas sim as modelos.Compreender a relação entre tamanho, quantização, RAM e VRAM permite escolher a combinação ideal de hardware e LLM para as suas necessidades: desde um laptop com 16 GB rodando um processador leve de 7 bits até uma estação de trabalho com uma GPU de 24 GB capaz de lidar com modelos robustos de visão computacional e OCR. Ajustando cuidadosamente as expectativas e os parâmetros, é perfeitamente possível ter uma IA poderosa e privada rodando em sua própria máquina, sem custos mensais.