- Keberhasilan Ollama terutama bergantung pada RAM, GPU, dan kuantisasi model, bukan pada aplikasi itu sendiri.
- Dengan RAM 16 GB dan GPU 8–12 GB, model terkuantisasi 7B–13B dapat ditangani dengan baik untuk penggunaan sehari-hari.
- Model 30B–70B membutuhkan GPU dengan VRAM 16–32 GB dan RAM minimal 32 GB agar benar-benar dapat digunakan.
- Memilih ukuran dan format model yang tepat untuk perangkat keras Anda mencegah kerusakan dan memungkinkan AI lokal yang lancar dan privat.

Jika Anda mempertimbangkan untuk menjalankan model kecerdasan buatan di komputer Anda sendiri, cepat atau lambat Anda akan menemukan Ollama. Dan di situlah pertanyaan besar muncul: Persyaratan perangkat keras apa yang saya butuhkan agar model-model tersebut berjalan dengan lancar dan tidak tersendat-sendat? Tidak cukup hanya sekadar memulai; kuncinya adalah agar perangkat tersebut dapat digunakan dengan nyaman setiap hari dan Anda mengetahui cara penggunaannya. jenis perangkat keras komputer.
Sepanjang artikel ini kita akan membahasnya secara detail. Apa fungsi Ollama, apa saja persyaratan dari berbagai tipe model (7B, 13B, 70B, dll.), bagaimana CPU, GPU, RAM, dan disk memengaruhi kinerja, dan konfigurasi apa yang sesuai untuk situasi Anda?Baik Anda menginginkan asisten teks sederhana atau bermaksud menggerakkan monster seperti Llama 3 dengan puluhan miliar parameter atau model visi dan OCR.
Apa itu Ollama dan mengapa perangkat kerasnya membuat perbedaan yang begitu besar?
Ollama pada dasarnya adalah, klien model bahasa yang memungkinkan menjalankan LLM secara lokal. di mesin Anda, tanpa bergantung pada cloud. Ini menggunakan mesin seperti panggilan.cpp untuk melakukan inferensi dan merangkum semua kompleksitas dalam alat sederhana, dengan CLI dan REST API, juga membantu memahami konsep-konsep tersebut. jaringan saraf tiruan Siapa yang berada di balik para model tersebut?
Perannya adalah sebagai “pusat komando” dari mana Anda mengunduh, mengelola, dan menjalankan model seperti Llama 3, Mistral, Gemma, Phi, Qwen, DeepSeek, atau model multimodal seperti Llava.Keunggulannya adalah Anda dapat menggunakannya sepenuhnya secara offline, menyimpan data Anda di rumah dan tanpa perlu membayar setiap token seperti halnya API cloud.
Namun, meskipun Ollama sendiri berbobot ringan dan tidak banyak menuntut, Model yang dijalankannya memang sangat membutuhkan banyak sumber daya.Setiap LLM terdiri dari jutaan atau miliaran parameter, dan itu berarti membutuhkan gigabyte memori dan penyimpanan, serta beban berat pada CPU dan, jika Anda memilikinya, GPU.
Oleh karena itu, ketika seseorang mencoba menjalankan model besar (misalnya, Llama 70B) pada komputer dengan CPU yang bertenaga tetapi GPU diskrit dan RAM yang hanya cukup, Hasilnya biasanya adalah "berhasil, berhasil", tetapi sangat lambat sehingga praktis tidak berguna.Kuncinya adalah menyeimbangkan CPU, GPU, RAM, disk, dan tipe model dengan benar.
Jenis-jenis model di Ollama dan bagaimana pengaruhnya terhadap persyaratan.
Di perpustakaan Ollama, Anda akan melihat model-model yang dikelompokkan berdasarkan famili dan ukuran: 1B, 2B, 4B, 7B, 13B, 30B, 65B, 70B, 405B…Angka tersebut (B untuk miliaran) menunjukkan perkiraan jumlah parameter, dan merupakan salah satu faktor yang paling menentukan perangkat keras yang dibutuhkan.
Kita dapat mengelompokkannya secara umum menjadi empat kategoriyang sangat membantu dalam memperkirakan mesin mana yang Anda butuhkan agar nyaman dengan setiap kelompok model dan kuantifikasi:
- Model mini (270M – 4B): dirancang untuk perangkat sederhana (laptop sederhana, bahkan beberapa ponsel atau mini-PC). Cepat, tetapi dengan kemampuan penalaran yang lebih rendah.
- Model kecil (4B – 14B): ideal sebagai model “domestik” seimbangCocok untuk obrolan umum, tugas kantor, bantuan pemrograman ringan, dll.
- Model ukuran sedang (14B – 70B)Mereka sudah bermain di liga yang berbeda; Mereka membutuhkan perangkat keras yang mumpuni., RAM yang cukup dan, jika memungkinkan, GPU dengan VRAM yang besar.
- Model besar (> 70B)Mereka adalah makhluk buas yang dirancang untuk infrastruktur yang sangat serius (GPU kelas atas, beberapa kartu grafis, server khusus, Mac kelas atas yang dimanfaatkan dengan baik, dll.).
Selain ukuran, faktor-faktor lain juga ikut berperan. kuantisasiDi Ollamama Anda akan melihat akhiran seperti q4_K_M, q5_1, q3_K_S, q8_0, f16dll. Format-format ini menunjukkan seberapa terkompresi bebannya Model:
- FP16 / FP32 (f16, f32): hampir tidak terkompresi, Kualitas terbaik tetapi konsumsi memori sangat tinggi.Sebuah 7B dalam FP16 dapat memiliki VRAM lebih dari 20 GB.
- Q4 (q4_0, q4_K_M…)Kuantisasi 4-bit, pengurangan ukuran besar dengan dampak sedang pada kualitasBiasanya, itulah "titik ideal".
- Q3, Q2 (q3_K_S, q2_K…): kuantisasi yang lebih agresif, ukuran sangat kecil dengan mengorbankan sedikit presisiBerguna pada perangkat keras yang sangat terbatas.
- Q5, Q6, Q8: langkah-langkah perantara antara kompresi kuat dan FP16; Kualitas lebih tinggi, konsumsi lebih tinggi.
Konsekuensi praktisnya jelas: Model 7B yang sama dapat menempati sekitar 26 GB dalam FP16 atau sekitar 4 GB dalam Q4.Hal ini secara langsung berkaitan dengan VRAM GPU yang Anda butuhkan dan jumlah RAM yang harus mendukung beban tersebut.
Persyaratan perangkat keras minimum dan yang direkomendasikan untuk Ollama di jaringan lokal.
Jika kekhawatiran Anda adalah apakah komputer Anda mampu menjalankan Ollama, jawabannya biasanya ya; pertanyaannya adalah... Model mana yang dapat Anda gunakan dengan mudah?Kita akan membahasnya per komponen: RAM, CPU, GPU, dan disk, dengan rekomendasi realistis berdasarkan praktik dan dokumentasi dari berbagai panduan khusus.
RAM: sumber daya paling penting
RAM adalah hambatan pertama Secara umum, ketika kita berbicara tentang LLM lokal, kita dapat memikirkan rentang berikut:
- 8 GB RAM: landasan praktisnya. Ini memungkinkan model kecil (1B, 3B, beberapa varian 7B yang sangat terkuantisasi)Namun, Anda akan melihat keterbatasan, terutama jika sistem dan browser sudah menggunakan banyak memori. Kemungkinan besar semuanya akan berjalan agak lambat dan dengan lebih banyak lag.
- 16 GB RAM: standar yang wajar saat ini. Ideal untuk model 7B dan bahkan 13B yang dikuantisasi di Q4.Terutama jika Anda menggunakan GPU. Anda dapat mengerjakan percakapan yang kompleks tanpa sistem menjadi lambat.
- RAM 32 GB atau lebihDirekomendasikan jika Anda menginginkan model sedang (30B, 40B, 70B) atau melakukan hal-hal yang lebih berat seperti konteks yang sangat panjang, beberapa model secara paralel, server multi-pengguna, atau alat grafis tipe Open WebUI di Ollama.
Perlu diingat bahwa RAM tidak hanya ditentukan oleh modelnya: Sistem operasi, browser, IDE, Docker, Open WebUI, dan lain-lain, juga bergantung padanya.Jika Anda ingin membebaskan memori dalam skenario tertentu, Anda dapat mempelajari caranya. mengurangi konsumsi RAM dalam aplikasi seperti browser. Jika Anda mempertimbangkan penggunaan intensif, 16 GB saat ini adalah "minimum yang nyaman" dan 32 GB mulai menjadi jumlah yang sangat besar.
CPU: Instruksi modern dan jumlah inti
Ollama dapat dijalankan hanya dengan CPU, tetapi pengalamannya sangat bervariasi tergantung pada prosesornya. Lebih dari sekadar jumlah core, Penting untuk memiliki dukungan untuk set instruksi tingkat lanjut seperti AVX2 dan, bahkan lebih baik lagi, AVX-512.yang mempercepat operasi matriks dan vektor yang digunakan secara masif dalam LLM.
sebuah panduan yang wajar akan:
- Minimum yang dapat diterimaCPU quad-core modern (misalnya, prosesor Intel i5 generasi terbaru atau prosesor Ryzen yang setara) dengan dukungan AVX2. Anda akan dapat Jalankan model 7B dengan sabar, terutama jika model tersebut terkuantisasi dengan baik..
- Recomendado: tipe prosesor terbaru Prosesor Intel generasi ke-11 atau yang lebih baru, atau AMD Zen4., Dengan 8 inti atau lebih dan dukungan AVX-512 jika memungkinkan. Dengan cara ini Anda mendapatkan Waktu respons yang lebih baik dan pengurangan hambatan, bahkan dengan GPU..
Jika ide Anda adalah menggunakan model yang sangat besar (misalnya, mencoba Llama 3 seharga 70B dengan CPU + GPU yang sederhana), CPU akan mengalami beban berat dan Anda akan melihat waktu pembuatan token yang sangat tinggi.Dalam skenario ini, hal yang paling masuk akal adalah memilih model yang lebih kecil atau berinvestasi pada GPU yang sesuai.
GPU dan VRAM: kapan dibutuhkan dan seberapa banyak yang diperlukan?
GPU bukanlah suatu keharusan, tetapi ini menandai titik balik. GPU yang mumpuni dengan VRAM yang cukup dapat mengubah pengalaman yang lambat menjadi sesuatu yang sangat layak digunakan., khususnya dengan model 7B hingga 13B dan model terkuantisasi.
Sebagai referensi yang sangat bergunaUntuk model terkuantisasi (kira-kira Q4), kita dapat memperkirakan sesuatu seperti ini:
- 7B → ~4 GB VRAM
- 13B → ~8 GB VRAM
- 30B → ~16 GB VRAM
- 65-70B → ~32 GB VRAM
Ini adalah nilai perkiraan, tetapi hal ini memperjelas bahwa GPU tipe RTX 2060 SUPER dengan VRAM 8 GB lebih dari cukup untuk 7B dan dapat menangani 13B, tetapi tidak mencukupi untuk 70B. Sekalipun Anda memiliki prosesor i9 dengan RAM 64 GB, sistem akan dipaksa untuk mendistribusikan sebagian besar beban antara RAM dan CPU, dan latensi akan meningkat drastis.
Secara praktis:
- dengan VRAM 4-6 GB: fokus pada model 7B yang terkuantisasi dengan baikSangat cocok untuk obrolan, menulis, dan tugas-tugas umum.
- dengan VRAM 8-12 GBAnda dapat bekerja dengan nyaman dengan 7B dan 13B dan bahkan beberapa ukuran 30B jika Anda bersedia melaju sedikit lebih lambat.
- dengan VRAM 20-24 GBAnda sekarang memasuki wilayah Model 30B-40B dengan martabat yang cukup tinggi, dan beberapa 70B yang sangat terkuantisasi, terutama jika Anda mendukungnya dengan RAM yang bagus.
- dengan VRAM 32 GB atau lebih: adalah saat 70B mulai terlihat masuk akal. untuk penggunaan interaktif, dengan syarat anggota tim lainnya ikut serta.
Untuk model OCR atau model khusus lainnya (misalnya, penglihatan), GPU dengan VRAM 20-24 GB merupakan fondasi yang sangat solid untuk performa yang lancar.Terutama jika model tersebut melibatkan puluhan miliar parameter. Untuk varian OCR atau visi yang lebih ringan (2B-7B), 8-12 GB sudah cukup.
Penyimpanan disk: berapa banyak ruang yang dibutuhkan model-model tersebut?
Mengenai ruang disk, aplikasi Ollama sendiri hanya membutuhkan sedikit ruang; yang benar-benar memakan ruang adalah model-modelnya. Dalam lingkungan dasar atau pengujian, beberapa model saja sudah cukup. 50 GBNamun jika Anda mulai mengoleksi model, semuanya akan berkembang dengan cepat.
Sebagai panduan kasar untuk model terkuantisasi:
- Model kecil (1B-4B) → sekitar 2 GB berdasarkan model.
- Model berukuran sedang (7B-13B) → biasanya 4-8 GB berdasarkan model sesuai dengan kuantifikasi.
- Model besar (30B-70B) → mudah 16-40 GB masing-masing
- Model yang sangat besar (> 100B) → bisa melebihi 200 GB berdasarkan model dan bahkan melebihi terabyte dalam beberapa kasus ekstrem.
Yang ideal adalah menggunakan SSD Cepat (NVMe jika memungkinkan) untuk mempercepat pemuatan model awal. Selain itu, Ollama memungkinkan ubah jalur tempat model disimpan menggunakan variabel lingkungan MODEL OVENsehingga Anda dapat menggunakan hard drive sekunder yang besar dan membiarkan hard drive utama lebih rapi; untuk informasi lebih lanjut tentang ruang penyimpanan dan jenis hard drive, lihat panduan perangkat keras penyimpanan.
Persyaratan khusus untuk menjalankan model tertentu dengan Ollama
Meskipun setiap model memiliki nuansanya masing-masing, dengan ekosistem Ollama saat ini beberapa [peluang] mungkin muncul. pedoman yang jelas untuk kategori penggunaan umum: obrolan umum, pengkodean, model visi/OCR, dan model raksasa tipe 70B.
Templat obrolan umum (Llama, Mistral, Gemma, Qwen…)
Untuk penggunaan tipe "ChatGPT lokal" yang umum dengan model seperti ini: Llama 3.x 7B/8B, Mistral 7B, Gemma 2B/7B atau Qwen berukuran sedangYang dianggap wajar saat ini mungkin seperti ini:
- Rekomendasi minimum:
- CPU quad-core modern dengan AVX2.
- 16 GB RAM.
- Tidak ada GPU atau GPU dasar dengan VRAM 4-6 GB.
- Setidaknya 50 GB SSD untuk sistem + satu atau dua model.
- Konfigurasi optimal untuk memiliki ruang gerak yang cukup dengan 7B-13B:
- CPU dengan 8 core atau lebih (i7/i9 atau Ryzen 7/9 modern).
- 32 GB RAM jika Anda ingin tetap membuka banyak hal.
- GPU dengan VRAM 8-12 GB (RTX 3060/3070 atau yang setara, AMD RX 6700 atau lebih tinggi, atau Mac dengan M1/M2/M3 yang dimanfaatkan dengan baik).
- SSD 1 TB jika Anda berencana mengoleksi model.
Dalam skenario ini, Model 7B dengan kuantisasi Q4_K_M atau Q5_K_M bekerja sangat baik. dan menawarkan kualitas yang lebih dari cukup untuk penggunaan pribadi, dokumentasi teknis, tugas studi, atau dukungan penulisan.
Model pengkodean (DeepSeek, CodeLlama, Code-oriented Phi)
Model yang berspesialisasi dalam pemrograman biasanya memiliki kebutuhan yang serupa dengan ruang obrolan umum dengan ukuran yang samaNamun, sebaiknya berikan sedikit margin lebih banyak. RAM dan VRAM sangat diperlukan jika Anda akan menggunakannya bersama dengan IDE yang berat dan banyak proyek sumber terbuka..
Misalnya, untuk menggunakan sesuatu seperti DeepSeek-Coder berukuran 7B-8B atau CodeLlama dengan ukuran serupa dalam kondisi tertentu.Kombinasi yang sangat masuk akal adalah:
- CPU prosesor modern 6-8 core.
- 32 GB RAM jika Anda bekerja dengan beberapa alat secara bersamaan (IDE, browser bertab, Docker, dll.).
- GPU dengan VRAM minimal 8 GB untuk menggerakkan model dengan lancar.
Ini juga berfungsi pada perangkat keras yang kurang bertenaga, tetapi Anda akan menyadari perbedaannya. Waktu respons lebih lambat saat menghasilkan blok kode yang panjang atau analisis yang kompleks.Untuk model yang ringkas, ketik Phi-4Mini Persyaratan sistemnya jauh lebih rendah dan performanya tetap baik bahkan pada sistem 16 GB dengan GPU yang ringan.
Model visi dan OCR (Kunci, model OCR, multimodal)
Model dengan kemampuan pengolahan gambar (vision/OCR) seperti Llava Varian multimodal dari Llama 3.x, serta model OCR spesifik, menambahkan lapisan kompleksitas lebih lanjut. Pada tingkat perangkat keras, Mereka mendekati persyaratan model teks dengan ukuran yang sama, tetapi dengan manfaat yang lebih besar dari penggunaan GPU..
Jika kita berbicara tentang model OCR berukuran sedang (katakanlah dalam kisaran 7B-13B) dan Anda ingin menggunakannya dengan nyaman secara lokal untuk mengenali dokumen, gambar hasil pemindaian, dll., Masuk akal untuk menyarankan sesuatu seperti:
- GPU dengan VRAM 20-24 GB baik modelnya sangat besar atau jika Anda ingin menyerahkan hampir semua pemrosesan pada kartu.
- GPU dengan VRAM 8-12 GB Jika Anda memilih varian yang lebih ringan dan terkuantisasi dengan baik, itu akan terus berfungsi dengan baik selama Anda tidak menggunakan ukuran gambar atau konteks yang terlalu besar.
- RAM minimal 16 GB, meskipun 32 GB menawarkan margin yang sangat nyaman untuk penggunaan intensif.
- CPU modern agar tidak menjadi hambatan (bottleneck) saat GPU sedang bekerja keras.
Jawaban langsung untuk pertanyaan umum "bisakah saya menjalankan model OCR pada GPU dengan VRAM 20-24 GB?" adalah bahwa Ya, ini adalah pilihan yang sangat baik untuk model penglihatan/OCR berukuran sedang hingga besar di Ollama.asalkan Anda memiliki RAM yang cukup dan CPU yang layak.
Model raksasa (Llama 3:70B dan yang serupa)
Mencoba memindahkan Panggilan 3 dari 70B dengan CPU yang sangat bertenaga (misalnya, i9 generasi ke-11) dan RAM 64GB tetapi GPU seperti RTX 2060 SUPER 8GB Ini adalah contoh sempurna dari "ya, tapi tidak." Modelnya mungkin akhirnya dimuat, tetapi:
- Sebagian dari model tersebut tidak muat di VRAM dan sangat bergantung pada RAM.
- CPU harus menangani banyak pekerjaan inferensi.
- Waktu yang dibutuhkan per token meningkat drastis dan pengalaman tersebut menjadi hampir tidak dapat digunakan..
Agar seri 70B masuk akal di lingkungan rumah atau semi-profesional, Anda membutuhkan, minimalKurang lebih seperti ini:
- RAM 32 GB sebagai standar, 64 GB jika Anda menginginkan kapasitas ekstra..
- GPU dengan VRAM minimal 24-32 GB. untuk memuat sebagian besar model dengan kuantisasi yang wajar (Q4_K_M atau yang serupa).
- CPU kelas atas yang andal dengan 8-16 inti.
Jika Anda tidak memenuhi angka-angka ini, Jauh lebih praktis untuk menggunakan model 7B-13B yang terkuantisasi dengan baik. Atau, jika Anda benar-benar membutuhkan 70B untuk kualitas yang baik, pertimbangkan server khusus (lokal atau di cloud), Mac yang sangat mumpuni, atau beberapa GPU yang bekerja secara paralel.
Persyaratan untuk menginstal Ollama di VPS atau server
Pilihan lain yang sangat umum adalah memasang Ollama di VPS atau server khusus dan menggunakannya melalui API atau antarmuka web (misalnya, dengan Open WebUI). Hal ini tidak hanya melibatkan sumber daya, tetapi juga sistem operasi dan izin.
Dalam panduan penyedia layanan seperti Hostinger Berikut ini adalah persyaratan minimum yang direkomendasikan. untuk VPS yang ditujukan untuk Ollama:
- RAM: minimal 16 GB agar model berukuran kecil/menengah tidak membebani sistem.
- CPU: 4-8 vCoretergantung pada ukuran model dan jumlah pengguna bersamaan.
- Penyimpanan: minimal 12 GBNamun, dalam praktiknya disarankan untuk menargetkan kapasitas yang lebih tinggi (50-100 GB) jika Anda akan mencoba beberapa model.
- Sistema operativo: di atas segalanya Linux, dengan preferensi untuk Ubuntu 22.04 atau lebih tinggi, atau Debian versi stabil terbaru..
- Akses root atau izin sudo untuk menginstal dependensi, mengkonfigurasi systemd, dll.
Jika VPS Anda menyertakan GPU NVIDIA, Anda perlu melakukan hal berikut: Instal dan konfigurasikan CUDA atau toolkit kontainer NVIDIA. Jika Anda menggunakan Docker. Dengan AMD, ROCm biasanya digunakan di Linux, dan driver Adrenalin yang sesuai di Windows. Di lingkungan tanpa GPU, server akan bergantung pada CPU dan RAM, jadi jangan berhemat di sana; Anda juga dapat mengelolanya dari jarak jauh menggunakan koneksi desktop jarak jauh jika Anda memerlukan antarmuka grafis.
Skenario perangkat keras spesifik dan model mana yang harus digunakan
Untuk memastikan bahwa semua hal di atas tidak hanya bersifat teoritis, ada baiknya kita melihat beberapa kombinasi perangkat keras yang umum dan Jenis model mana yang cocok untuk setiap kasus? menggunakan Ollama.
Komputer desktop sederhana atau laptop ukuran sedang.
Mari kita bayangkan sebuah tim tipikal.:
- CPU i5 atau Ryzen 5 dari beberapa tahun lalu (4-6 core).
- 16 GB RAM.
- GPU terintegrasi atau khusus dengan kapasitas 4 GB.
- SSD 512GB.
Dalam skenario ini, hal yang masuk akal untuk dilakukan adalah mengincar:
- Model 1B-3B terkuantisasi (Gemma 2B, Phi-4 Mini, Llama 3.x 1B) untuk fluiditas maksimal.
- Model 7 miliar di Q4 jika Anda menerima waktu respons yang sedikit lebih lama.
- Gunakan Ollama dengan terminal dan, jika Anda menginginkan antarmuka web, buka WebUI dengan hati-hati agar tidak membebani RAM.
Anda akan dapat menggunakan asisten teks lokal Anda, membuat ringkasan, beberapa analisis, dan tugas pemrograman ringan, tetapi Ini bukan lingkungan yang ideal untuk model 13B ke atas..
Peralatan kelas menengah hingga atas yang berfokus pada AI lokal.
Di sini kita sedang membicarakan tentang tipe PC.:
- CPU i7/i9 atau Ryzen 7/9 modern, 8-16 core.
- 32 GB RAM.
- GPU dengan VRAM 12-24 GB (RTX 4070/4080, 3090, 4090, setara AMD atau yang serupa).
- SSD 1-2 TB.
Konfigurasi ini sangat memperluas jangkauan kemungkinan.:
- Model 7B-13B di Q4/Q5 untuk obrolan, kode, analisis data… dengan waktu respons yang sangat baik.
- Model 30B dan beberapa 70B terkuantisasi jika Anda menerima sedikit lebih banyak latensi.
- Model dari penglihatan/OCR berukuran sedang yang menggunakan GPU secara ekstensif.
Ini adalah jenis mesin yang bisa Anda rakit. Lingkungan AI lokal yang serius, dengan berbagai model, antarmuka web, integrasi REST API, dan alur kerja profesional. tanpa bergantung pada layanan eksternal.
Server atau workstation "Beast"
Dalam ujung atas Terdapat lingkungan dengan:
- Beberapa GPU dengan VRAM masing-masing 24-48 GB, atau satu GPU kelas atas.
- RAM 64-128 GB.
- CPU dengan banyak inti, seperti model Threadripper atau Xeon terbaru.
Di sinilah Model-model raksasa (>70 miliar, MoE, visi yang rumit, dll.) mulai menjadi realistis. bahkan dengan banyak pengguna bersamaan atau integrasi yang kompleks. Ini jelas merupakan skenario berbiaya tinggi, tetapi juga memungkinkan Anda untuk memiliki kemampuan yang mirip dengan beberapa API komersial, dengan kendali data lengkap dalam infrastruktur Anda sendiri.
Tips praktis untuk memaksimalkan penggunaan perangkat keras Ollama Anda
Selain sekadar membeli RAM tambahan atau GPU yang lebih baik, ada beberapa praktik yang perlu dilakukan. Mereka membantu memaksimalkan apa yang sudah Anda miliki dan menghindari kejutan saat menjalankan model berskala besar. bersama Ollama.
Pertama-tama, disarankan Pilih model yang tepat sesuai dengan penggunaannya.Tidak ada gunanya menggunakan 70B untuk menulis email sederhana ketika 7B yang disetel dengan baik sudah cukup memadai. Demikian pula, 30B tidak masuk akal jika GPU Anda hanya memiliki 6GB VRAM; 7B akan menjadi pilihan yang lebih baik di Q4.
Ukuran penting lainnya adalah bermain-main dengan parameter eksekusi (suhu, num_ctx, num_predict, dll.), baik di Modelfile atau melalui CLI/API. Menggunakan konteks yang sangat besar (num_ctx sebesar 32k atau lebih) dengan RAM atau VRAM yang sedikit akan memperlambat seluruh sistem tanpa memberikan kontribusi yang berarti dalam banyak kasus.
Itu juga direkomendasikan Memantau model mana yang dimuat dan pada prosesor mana. menggunakan ollama psDi situ Anda akan melihat apakah model tersebut benar-benar berjalan di GPU atau CPU, dan berapa ukuran yang dimuatnya. Sesuaikan variabel tersebut. OLLAMA_KEEP_ALIVE Ini membantu model untuk melepaskan memori saat tidak digunakan, sehingga membebaskan sumber daya.
Terakhir, ingat itu Kuantisasi adalah sekutu Anda.Membuat varian Q4_K_M atau Q5_K_M dari model asli di FP16 memungkinkan Anda memanfaatkan perangkat keras yang jauh lebih sederhana dengan penurunan kualitas yang seringkali hampir tidak terlihat untuk penggunaan di dunia nyata.
Setelah melihat gambaran keseluruhan ini, gagasan yang paling jelas adalah bahwa Ollama bukanlah bagian yang sulit, melainkan model-modelnya.Memahami bagaimana ukuran, kuantisasi, RAM, dan VRAM saling berkaitan memungkinkan Anda untuk memilih kombinasi perangkat keras dan LLM yang tepat untuk kebutuhan Anda: mulai dari laptop dengan 16 GB yang menjalankan 7B yang ringan hingga workstation dengan GPU 24 GB yang menangani model visi dan OCR yang tangguh. Dengan menyesuaikan ekspektasi dan parameter secara cermat, sangat memungkinkan untuk memiliki AI pribadi yang canggih yang berjalan di mesin Anda sendiri tanpa biaya bulanan.
Daftar isi
- Apa itu Ollama dan mengapa perangkat kerasnya membuat perbedaan yang begitu besar?
- Jenis-jenis model di Ollama dan bagaimana pengaruhnya terhadap persyaratan.
- Persyaratan perangkat keras minimum dan yang direkomendasikan untuk Ollama di jaringan lokal.
- Persyaratan khusus untuk menjalankan model tertentu dengan Ollama
- Persyaratan untuk menginstal Ollama di VPS atau server
- Skenario perangkat keras spesifik dan model mana yang harus digunakan
- Tips praktis untuk memaksimalkan penggunaan perangkat keras Ollama Anda