تشغيل Ollama VPS: تشغيل Ollama على VPS 2026: بديل ChatGPT مفتو...

تشغيل Ollama على VPS 2026: بديل ChatGPT مفتوح المصدر على سيرفرك الخاص

دليل شامل لاستضافة نموذج ذكاء اصطناعي محلي بأداء عالي وخصوصية كاملة

أصبح تشغيل Ollama VPS من أكثر التقنيات إثارة للاهتمام في عالم الذكاء الاصطناعي للأفراد والشركات. مع تزايد المخاوف حول خصوصية البيانات وتكاليف خدمات الذكاء الاصطناعي السحابية مثل ChatGPT و Claude، يبحث الكثيرون عن بدائل مفتوحة المصدر يمكن استضافتها محلياً على سيرفرات خاصة. Ollama هو الحل الأكثر شيوعاً لتشغيل النماذج اللغوية الكبيرة (LLMs) بكل بساطة وفعالية. في عام 2026، أصبحت النماذج المحلية تنافس النماذج التجارية في الأداء، مع توفير ميزات إضافية في الخصوصية والتحكم والتكلفة على المدى الطويل.

في هذا الدليل العملي الشامل، سنستعرض كل ما تحتاجه لـ تشغيل Ollama VPS بشكل احترافي. من فهم متطلبات الخادم، اختيار النموذج المناسب لاحتياجاتك، خطوات التثبيت التفصيلية على Ubuntu Server، استخدام Docker، تكامل مع Open WebUI لواجهة شبيهة بـ ChatGPT، وتحسين الأداء على VPS سواء بـ CPU أو GPU. سنشمل كذلك الحديث عن الأمان والخصوصية، ومقارنات عملية بين النماذج المختلفة، ونصائح من خبرة فعلية في نشر هذه الأنظمة.

محتويات المقال

ما هو Ollama ولماذا تستخدمه
مزايا تشغيل Ollama VPS الخاص بك
متطلبات السيرفر لـ تشغيل Ollama VPS
اختيار النموذج المناسب
تشغيل Ollama VPS على Ubuntu Server
تشغيل Ollama VPS باستخدام Docker
تشغيل Ollama VPS مع أول نموذج (Llama 3, DeepSeek)
استخدام API لـ تشغيل Ollama VPS
ربط Ollama بـ Open WebUI
تحسين أداء تشغيل Ollama VPS
مقارنة بين GPU و CPU لـ تشغيل Ollama VPS
الأمان والخصوصية في تشغيل Ollama VPS
الخلاصة
الأسئلة الشائعة

ما هو Ollama ولماذا تستخدمه

Ollama هو إطار عمل مفتوح المصدر يبسّط عملية تشغيل النماذج اللغوية الكبيرة محلياً على جهازك أو خادمك الخاص. يقوم Ollama بدور الوسيط الذي يدير تحميل النماذج، ضبط الإعدادات، إدارة الذاكرة، وتوفير API موحد لكل النماذج. قبل ظهور Ollama، كان تشغيل نموذج لغوي محلياً يتطلب خبرة عميقة في Python و PyTorch و CUDA وكثير من الإعدادات المعقدة. مع Ollama، تستطيع تشغيل نموذج بحجم 70 مليار معامل بأمر واحد بسيط. للمزيد من المعلومات الرسمية.

لماذا يفضل الناس تشغيل Ollama VPS بدلاً من استخدام خدمات سحابية جاهزة مثل ChatGPT؟ الأسباب متعددة وقوية. أولاً، الخصوصية الكاملة: بياناتك ومحادثاتك لا تخرج من سيرفرك، لا تُرسل لشركات خارجية، ولا تُستخدم لتدريب نماذج تجارية. ثانياً، عدم وجود حدود استخدام: بعد تثبيت Ollama على VPS قوي، يمكنك إرسال مليون رسالة دون تكلفة إضافية. ثالثاً، التحكم الكامل: تختار النموذج، تضبط معاملاته، تخصصه لاحتياجاتك. رابعاً، التكامل مع تطبيقاتك دون قيود.

مزايا تشغيل Ollama VPS الخاص بك

قرار تشغيل Ollama VPS بدلاً من جهازك المحلي أو الخدمات السحابية له مزايا فريدة. السيرفر متاح 24/7 من أي مكان في العالم، يمكنك الوصول إليه من جوالك، حاسوبك، أو من أي تطبيق متكامل. لا داعي لإبقاء جهازك مشغلاً لتشغيل النموذج. كذلك VPS يوفر موارد مخصصة لا تنافس عليها مع تطبيقاتك الأخرى، مما يضمن أداءً ثابتاً. أخيراً، VPS يمكنه استضافة عدة نماذج معاً ومشاركتها مع فريقك أو عملائك بسهولة.

المقارنة بين الخيارات الثلاثة

Ollama على جهازك: مجاني لكن يستهلك موارد جهازك ومحدود الوصول
Ollama على VPS: توازن مثالي بين التكلفة والأداء والمرونة
خدمات API السحابية: أسهل لكن أغلى وأقل خصوصية

حالات استخدام مثالية لـ Ollama VPS

أتمتة المهام في الشركة دون كشف بيانات سرية
بناء تطبيقات SaaS مع ميزات ذكاء اصطناعي
chatbot داخلي للموظفين
تحليل وثائق حساسة قانونياً وطبياً
أبحاث وتطوير نماذج مخصصة
توليد محتوى للمدونات والمواقع

متطلبات السيرفر لـ تشغيل Ollama VPS

متطلبات السيرفر لـ تشغيل Ollama VPS تختلف بشكل كبير حسب حجم النموذج الذي تخطط لتشغيله. القاعدة الذهبية: حجم RAM المطلوب يساوي تقريباً ضعف حجم النموذج. النموذج 7B (سبعة مليارات معامل) يحتاج 8GB RAM على الأقل لأداء معقول، النموذج 13B يحتاج 16GB، النموذج 70B يحتاج 64GB أو أكثر. بدون GPU، النماذج تعمل بسرعة معقولة على CPU حديث، لكن لتسريع 10-20 مرة تحتاج GPU بـ VRAM كافية لتحميل النموذج كاملاً.

المتطلبات حسب حجم النموذج

نماذج 1-3B: 4GB RAM، 2 cores CPU، 5GB تخزين – مناسب لـ VPS صغير
نماذج 7B: 8GB RAM، 4 cores CPU، 10GB تخزين – VPS متوسط
نماذج 13B: 16GB RAM، 8 cores CPU، 20GB تخزين – VPS قوي
نماذج 30-34B: 32GB RAM، 16 cores، 50GB تخزين – سيرفر مخصص
نماذج 70B+: 64GB+ RAM، GPU 24GB+ VRAM، 100GB+ تخزين – بنية متقدمة

متطلبات إضافية مهمة

نظام تشغيل: Ubuntu 22.04 LTS أو أحدث (موصى به)
Linux kernel: 5.10 أو أحدث للأداء الأمثل
تخزين SSD أو NVMe لتحميل سريع للنماذج
عرض نطاق ترددي جيد للاستجابة السريعة عبر API
swap memory مفعل (مساوي لحجم RAM على الأقل)

اختيار النموذج المناسب (Llama 3, Mistral, Gemma)

اختيار النموذج المناسب لاحتياجاتك هو أهم قرار في تشغيل Ollama VPS. هناك عشرات النماذج المفتوحة المصدر، كل منها له نقاط قوة وضعف. النماذج الأكبر ليست دائماً أفضل، خاصة إذا كانت موارد سيرفرك محدودة. نموذج 7B محسّن قد يتفوق على نموذج 70B عام في مهمة محددة. لمعرفة النماذج المتاحة وآخر التحديثات، يمكنك زيارة صفحة Ollama على GitHub الرسمية.

أبرز النماذج المتاحة لـ Ollama في 2026

Llama 3.3 (Meta): الأحدث من ميتا، توازن ممتاز بين الأداء والحجم، أحجام 8B و 70B
Mistral 7B: سريع جداً ومتعدد اللغات، جيد للمهام العامة
Gemma 2 (Google): من Google، أحجام 2B و 9B و 27B
DeepSeek Coder: الأفضل للبرمجة، يدعم 80+ لغة برمجة
Qwen 2.5: ممتاز للغة العربية، أحجام متعددة
Phi 3 (Microsoft): صغير لكن قوي، 3.8B فقط
Mixtral 8x7B: Mixture of Experts، أداء قوي جداً

مقارنة الأداء حسب الاستخدام

للمحادثة العامة: Llama 3.3 8B أو Mistral 7B
للبرمجة: DeepSeek Coder 33B أو Codellama 13B
للعربية: Qwen 2.5 14B أو Aya 23B
لتحليل النصوص الطويلة: Llama 3.3 70B
للموارد المحدودة: Phi 3 Mini أو Gemma 2B

تشغيل Ollama VPS على Ubuntu Server

تثبيت Ollama VPS على Ubuntu Server من أبسط العمليات في عالم الذكاء الاصطناعي. سكربت التثبيت الرسمي يقوم بكل شيء آلياً: يكتشف نظامك، يحمّل الإصدار المناسب، يكوّن الخدمة، ويفعّل التشغيل التلقائي عند إقلاع السيرفر. العملية كاملة تستغرق دقائق معدودة على VPS عادي. بعد التثبيت، يصبح Ollama متاحاً كخدمة نظام مع API يستمع على المنفذ 11434.

التثبيت السريع بأمر واحد

# التثبيت الرسمي بأمر واحد
curl -fsSL https://ollama.com/install.sh | sh

# التحقق من نجاح التثبيت
ollama --version

# عرض حالة الخدمة
systemctl status ollama

# إعادة تشغيل الخدمة إذا لزم
sudo systemctl restart ollama

# تفعيل التشغيل التلقائي
sudo systemctl enable ollama

التثبيت اليدوي للتحكم الكامل

# 1. إنشاء مستخدم Ollama
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

# 2. تحميل البايناري
sudo curl -L https://ollama.com/download/ollama-linux-amd64 \
  -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

# 3. إنشاء ملف الخدمة
sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/var/ollama/models"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"

[Install]
WantedBy=default.target
EOF

# 4. تفعيل وتشغيل الخدمة
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

# 5. فتح المنفذ في الجدار الناري
sudo ufw allow 11434/tcp

تشغيل Ollama VPS باستخدام Docker

التثبيت عبر Docker هو الخيار المفضل للمستخدمين المتقدمين الذين يريدون عزل البيئة، سهولة التحديث، إمكانية تشغيل عدة instances من Ollama، ودمج النظام مع باقي البنية التحتية. Docker يوفر طريقة نظيفة لإدارة Ollama VPS، خاصة عند العمل مع عدة مشاريع أو احتياج لاستنساخ الإعدادات بسرعة. الصورة الرسمية لـ Ollama متاحة على Docker Hub ومحدثة باستمرار.

تشغيل Ollama في Docker

# تثبيت Docker على Ubuntu أولاً
curl -fsSL https://get.docker.com | sh

# تشغيل Ollama في Docker (CPU only)
docker run -d \
  --name ollama \
  --restart always \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

# تشغيل مع GPU (NVIDIA)
docker run -d \
  --gpus=all \
  --name ollama-gpu \
  --restart always \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

# سحب نموذج وتشغيله داخل الحاوية
docker exec -it ollama ollama pull llama3.3
docker exec -it ollama ollama run llama3.3 "Hello world"

# عرض السجلات
docker logs -f ollama

# تحديث Ollama
docker pull ollama/ollama
docker stop ollama
docker rm ollama
# ثم تشغيل الأمر الأول مرة أخرى

استخدام Docker Compose

# ملف docker-compose.yml
version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    environment:
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_NUM_PARALLEL=4
      - OLLAMA_MAX_LOADED_MODELS=2
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    volumes:
      - ./webui_data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

# تشغيل الخدمتين
docker compose up -d

تشغيل Ollama VPS مع أول نموذج (Llama 3, DeepSeek)

الآن وقد ثبتنا Ollama VPS بنجاح، حان وقت تنزيل أول نموذج وتجربته. عملية تحميل النموذج بسيطة جداً، تحتاج فقط معرفة اسم النموذج. Ollama يدير عملية التحميل آلياً، يتحقق من سلامة الملفات، ويخزنها في مكان مركزي. النماذج الكبيرة قد تستغرق وقتاً للتحميل (بضعة جيجابايت)، لذا تأكد من جودة اتصال الإنترنت لسيرفرك.

تحميل وتشغيل النماذج

# تحميل نموذج Llama 3.3
ollama pull llama3.3

# تحميل نسخة بحجم محدد (4-bit quantized أصغر)
ollama pull llama3.3:8b-instruct-q4_K_M

# تحميل DeepSeek للبرمجة
ollama pull deepseek-coder:33b

# تحميل Qwen للعربية
ollama pull qwen2.5:14b

# عرض النماذج المثبتة
ollama list

# تشغيل محادثة تفاعلية
ollama run llama3.3

# تشغيل أمر واحد والخروج
ollama run llama3.3 "اشرح لي مفهوم البرمجة الكائنية"

# حذف نموذج لتوفير مساحة
ollama rm llama3.3:70b

# عرض معلومات النموذج
ollama show llama3.3

إنشاء نموذج مخصص بـ Modelfile

# إنشاء ملف Modelfile لنموذج مخصص
cat > Modelfile <<EOF
FROM llama3.3

# ضبط درجة الحرارة (الإبداع)
PARAMETER temperature 0.7

# طول السياق
PARAMETER num_ctx 8192

# نظام prompt مخصص
SYSTEM """
أنت مساعد ذكي متخصص في الدعم الفني لمواقع ووردبريس.
أجب باللغة العربية بشكل احترافي وعملي.
قدم أمثلة كود حيث يلزم.
"""
EOF

# إنشاء النموذج المخصص
ollama create wp-helper -f ./Modelfile

# استخدامه
ollama run wp-helper "كيف أحسن سرعة موقعي؟"

استخدام API لـ تشغيل Ollama VPS

قوة Ollama VPS الحقيقية تظهر عند استخدامه من خلال API. الـ API يفتح المجال لدمج النموذج مع تطبيقاتك ومواقعك ومشاريعك بأي لغة برمجة. Ollama يوفر REST API بسيط ومتوافق إلى حد كبير مع OpenAI API، مما يعني أن أي مكتبة تتعامل مع OpenAI يمكن استخدامها مع Ollama بتعديل بسيط في عنوان الخادم. هذا التوافق يجعل الانتقال من ChatGPT API إلى Ollama سلساً وغير مكلف.

أمثلة استخدام API

# طلب توليد نص بـ curl
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "اشرح ما هو VPS في خمسة جمل",
  "stream": false,
  "options": {
    "temperature": 0.7,
    "top_p": 0.9,
    "num_predict": 500
  }
}'

# طلب محادثة بنمط chat
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.3",
  "messages": [
    {"role": "system", "content": "أنت مساعد مفيد."},
    {"role": "user", "content": "ما هو الذكاء الاصطناعي؟"}
  ],
  "stream": false
}'

# عرض النماذج المتاحة
curl http://localhost:11434/api/tags

# إنشاء embedding
curl http://localhost:11434/api/embeddings -d '{
  "model": "llama3.3",
  "prompt": "نص للحصول على تمثيله الرياضي"
}'

استخدام Python مع Ollama

# تثبيت مكتبة Ollama لـ Python
pip install ollama

# مثال أساسي
import ollama

response = ollama.chat(
    model='llama3.3',
    messages=[
        {'role': 'system', 'content': 'أنت مساعد مفيد.'},
        {'role': 'user', 'content': 'كيف أتعلم البرمجة؟'}
    ]
)
print(response['message']['content'])

# مثال مع streaming
stream = ollama.chat(
    model='llama3.3',
    messages=[{'role': 'user', 'content': 'اشرح الـ APIs'}],
    stream=True
)
for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

# استخدام OpenAI SDK مع Ollama
from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # أي قيمة
)

response = client.chat.completions.create(
    model='llama3.3',
    messages=[{'role': 'user', 'content': 'مرحبا'}]
)
print(response.choices[0].message.content)

ربط Ollama بـ Open WebUI كواجهة ChatGPT

للحصول على تجربة كاملة شبيهة بـ ChatGPT لكن على سيرفرك الخاص، Open WebUI هو الحل الأمثل. هذه الواجهة مفتوحة المصدر تعطيك تجربة استخدام احترافية مع تاريخ المحادثات، تنظيم بالمحادثات، دعم الصور (مع نماذج multimodal)، تحميل ملفات للتحليل، وإدارة متعددة المستخدمين. كل هذا مع التكامل المباشر مع Ollama VPS الذي ثبتناه. للمزيد من المعلومات.

تثبيت Open WebUI

# تشغيل Open WebUI عبر Docker
docker run -d \
  --name open-webui \
  --restart always \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

# الوصول للواجهة
# http://your-vps-ip:3000

# إعداد reverse proxy مع Nginx
sudo tee /etc/nginx/sites-available/openwebui <<EOF
server {
    listen 80;
    server_name ai.yourdomain.com;

    location / {
        proxy_pass http://localhost:3000;
        proxy_http_version 1.1;
        proxy_set_header Upgrade \$http_upgrade;
        proxy_set_header Connection "upgrade";
        proxy_set_header Host \$host;
        proxy_set_header X-Real-IP \$remote_addr;
        proxy_set_header X-Forwarded-For \$proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto \$scheme;
        proxy_read_timeout 86400;
    }
}
EOF

sudo ln -s /etc/nginx/sites-available/openwebui \
  /etc/nginx/sites-enabled/
sudo nginx -t
sudo systemctl reload nginx

# إضافة SSL مع Let's Encrypt
sudo certbot --nginx -d ai.yourdomain.com

تحسين أداء تشغيل Ollama VPS

للحصول على أقصى أداء من تشغيل Ollama VPS، هناك عدة تحسينات يمكن تطبيقها على مستوى النظام والتطبيق. هذه التحسينات قد تضاعف سرعة الاستجابة وتمكنك من تشغيل نماذج أكبر بنفس الموارد. التحسين الأهم هو استخدام النماذج المضغوطة (quantized) التي تقلل حجم النموذج بنسبة 50-75% مع فقدان طفيف في الجودة. كذلك يمكنك ضبط معاملات Ollama لتناسب أحمال عملك المحددة.

متغيرات البيئة لتحسين الأداء

# تحديد عدد المعالجات المستخدمة
export OLLAMA_NUM_PARALLEL=4

# عدد النماذج المحملة في الذاكرة
export OLLAMA_MAX_LOADED_MODELS=2

# طول السياق الافتراضي
export OLLAMA_NUM_CTX=4096

# مكان تخزين النماذج (للأقراص السريعة)
export OLLAMA_MODELS=/mnt/nvme/ollama_models

# الاستماع على كل الواجهات (احذر من الأمان)
export OLLAMA_HOST=0.0.0.0:11434

# تفعيل flash attention للسرعة
export OLLAMA_FLASH_ATTENTION=1

# تخصيص ذاكرة GPU
export OLLAMA_GPU_OVERHEAD=1024

# تطبيق الإعدادات على الخدمة
sudo systemctl edit ollama
# أضف:
[Service]
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_FLASH_ATTENTION=1"

# إعادة تحميل وتشغيل
sudo systemctl daemon-reload
sudo systemctl restart ollama

اختيار النموذج المضغوط المناسب

q4_0: ضغط 4-bit أساسي، توازن جيد بين الحجم والجودة
q4_K_M: الأكثر شيوعاً، جودة ممتازة وحجم معقول
q5_K_M: جودة أعلى لكن حجم أكبر
q8_0: أعلى جودة، حجم كبير جداً
fp16: النسخة الأصلية بدون ضغط، الحجم الأكبر

مقارنة بين GPU و CPU لـ تشغيل Ollama VPS

أحد أهم القرارات في تشغيل Ollama VPS هو اختيار CPU أم GPU. الاختيار يؤثر بشكل كبير على الأداء والتكلفة. CPU أرخص ومتاح أكثر، لكنه أبطأ في توليد النصوص، خاصة مع النماذج الكبيرة. GPU يعطي تسريعاً يصل إلى 20-30 ضعف لكنه أغلى بكثير. اختيارك يعتمد على حجم العمل، الميزانية، وأهمية السرعة في تطبيقك. للاطلاع على نماذج محسنة لكل بيئة، يمكنك زيارة منصة Hugging Face التي تحتضن آلاف النماذج المفتوحة المصدر.

مقارنة الأداء العملية

Llama 3.3 8B على CPU AMD Ryzen 9: 8-12 token/s
Llama 3.3 8B على RTX 4090: 80-120 token/s
Llama 3.3 70B على CPU: 1-2 token/s (بطيء جداً)
Llama 3.3 70B على A100 80GB: 30-40 token/s
Mistral 7B على CPU عادي: 5-10 token/s
Mistral 7B على RTX 3090: 60-80 token/s

متى تختار GPU

تحتاج استجابة سريعة في تطبيق إنتاجي
تخدم عدد كبير من المستخدمين المتزامنين
تستخدم نماذج كبيرة (30B+)
تستخدم النموذج بكثافة عالية يومياً

متى تختار CPU

للتجربة والتعلم والاستخدام الشخصي
للنماذج الصغيرة (7B وأقل)
للاستخدام المتقطع وغير الكثيف
عند الميزانية المحدودة

سيرفرات GPU بأسعار تنافسية

سيرفرات GPU من مرام هوست لتشغيل Ollama بأداء عالي – بطاقات NVIDIA متعددة بأسعار اقتصادية وموارد مرنة. ابدأ من هنا.

الأمان والخصوصية في تشغيل Ollama VPS

أحد أهم أسباب التحول إلى تشغيل Ollama VPS هو الخصوصية، لكن هذه الخصوصية لا تتحقق تلقائياً، بل تتطلب إعدادات أمنية صحيحة. السيرفر المعرض للإنترنت بدون حماية يمكن أن يصبح هدفاً للهجمات، كما أن API مفتوح بدون مصادقة قد يستخدمه أي شخص. يجب اتخاذ تدابير حماية متعددة الطبقات لضمان أن Ollama VPS الخاص بك آمن من الاختراق والاستخدام غير المصرح به.

إجراءات الأمان الأساسية

# 1. عدم تعريض API مباشرة للإنترنت
# تأكد أن Ollama يستمع على localhost فقط
export OLLAMA_HOST=127.0.0.1:11434

# 2. استخدام Nginx كـ reverse proxy مع مصادقة
sudo tee /etc/nginx/sites-available/ollama-secure <<EOF
server {
    listen 443 ssl http2;
    server_name api.yourdomain.com;

    ssl_certificate /etc/letsencrypt/live/api.yourdomain.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/api.yourdomain.com/privkey.pem;

    # حماية بكلمة مرور أساسية
    auth_basic "Restricted";
    auth_basic_user_file /etc/nginx/.htpasswd;

    # rate limiting
    limit_req_zone \$binary_remote_addr zone=ollama:10m rate=10r/s;
    limit_req zone=ollama burst=20 nodelay;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_http_version 1.1;
        proxy_set_header Host \$host;
        proxy_read_timeout 600;
    }
}
EOF

# 3. إنشاء كلمة مرور للمصادقة
sudo apt install apache2-utils
sudo htpasswd -c /etc/nginx/.htpasswd username

# 4. تكوين الجدار الناري
sudo ufw allow 22/tcp     # SSH
sudo ufw allow 443/tcp    # HTTPS
sudo ufw deny 11434/tcp   # حظر الوصول المباشر لـ Ollama
sudo ufw enable

# 5. مراقبة السجلات
tail -f /var/log/nginx/access.log
journalctl -u ollama -f

# 6. fail2ban لحماية إضافية
sudo apt install fail2ban
sudo systemctl enable fail2ban

أفضل ممارسات الخصوصية

عدم استخدام نماذج من مصادر غير موثوقة
تشفير القرص بالكامل عبر LUKS
عمل نسخ احتياطية مشفرة لإعداداتك المخصصة
مراقبة استخدام الموارد لاكتشاف نشاط مشبوه
تحديث نظام التشغيل و Ollama باستمرار
عزل Ollama في حاوية أو VM إن أمكن
عدم تخزين بيانات حساسة في prompts السجلات

الخلاصة

تشغيل Ollama VPS أصبح في عام 2026 خياراً عملياً وقوياً لكل من يريد قوة الذكاء الاصطناعي مع الحفاظ على الخصوصية والتحكم. سواء كنت مطوراً يبني تطبيقات ذكية، باحثاً يحتاج لتجربة نماذج مختلفة، أو شركة تريد دمج الذكاء الاصطناعي في عملياتها دون إرسال بيانات لأطراف ثالثة، Ollama يوفر لك حلاً متكاملاً وفعالاً. التكلفة الثابتة لـ VPS تعطيك ميزة مالية كبيرة على المدى الطويل مقارنة بـ APIs السحابية المدفوعة لكل token.

تذكر أن نجاح تشغيل Ollama VPS يعتمد على ثلاثة عوامل: اختيار الاستضافة المناسبة بمواصفات كافية، اختيار النموذج المناسب لاحتياجاتك، وتطبيق إجراءات الأمان الصحيحة. ابدأ بنموذج صغير على VPS متوسط لاختبار الفكرة وفهم متطلباتك الفعلية، ثم وسّع تدريجياً. الانتقال من CPU إلى GPU يمكن أن يكون لاحقاً عندما تحتاج أداءً أعلى. الخصوصية والتحكم اللذان تحصل عليهما يستحقان كل لحظة قضيتها في الإعداد، خاصة في عالم اليوم حيث البيانات هي العملة الأهم.

الأسئلة الشائعة

هل Ollama مجاني فعلاً للاستخدام التجاري؟

Ollama نفسه مفتوح المصدر ومجاني تماماً، لكن النماذج التي تشغلها لها تراخيص مختلفة. Llama 3 من Meta يسمح بالاستخدام التجاري مع شروط معينة، Mistral مجاني تجارياً، Qwen كذلك. لكن بعض النماذج تتطلب موافقة قبل الاستخدام التجاري. تحقق دائماً من ترخيص كل نموذج قبل استخدامه في تطبيقك التجاري.

كم يكلف تشغيل Ollama على VPS مقارنة بـ ChatGPT API؟

VPS متوسط يكلف 30-50 دولار شهرياً ويتيح استخدام غير محدود. ChatGPT API يكلف حوالي 0.5-2 دولار لكل مليون token. للاستخدام الكثيف (مليون token يومياً)، VPS أرخص بكثير على المدى الطويل. للاستخدام الخفيف (آلاف tokens يومياً)، API السحابي أرخص. النقطة الفاصلة عادة عند 50-100 ألف token يومياً.

هل يمكنني تشغيل Ollama على VPS بدون GPU؟

نعم تماماً، وهو الخيار الأكثر شيوعاً. النماذج الصغيرة (7B وأقل) تعمل بسرعة معقولة على CPU حديث مع ذاكرة كافية. السرعة ستكون أبطأ من GPU بـ 10-20 ضعفاً، لكن للاستخدام الفردي والمشاريع الصغيرة هذا يكفي. مع quantization 4-bit، حتى نموذج 13B يمكن أن يعمل على VPS بـ 16GB RAM.

كيف أنقل بيانات نماذجي من سيرفر إلى آخر؟

النماذج تخزن في مجلد ~/.ollama/models أو /usr/share/ollama/.ollama/models حسب نوع التثبيت. يمكنك نسخ هذا المجلد كاملاً إلى السيرفر الجديد. أو ببساطة، استخدم ollama pull لتنزيل نفس النماذج على السيرفر الجديد. النسخ الاحتياطي للإعدادات المخصصة (Modelfiles والـ prompts) منفصل ويجب الاهتمام به.

هل تدعم استضافة مرام هوست تشغيل Ollama VPS؟

نعم، مرام هوست تقدم سيرفرات VPS و GPU مناسبة تماماً لتشغيل Ollama VPS. السيرفرات تأتي بمواصفات مرنة قابلة للتوسع، تخزين NVMe SSD سريع لتحميل النماذج، وذاكرة كافية لأكبر النماذج. سيرفرات GPU متوفرة لمن يحتاج أداءً عالياً مع نماذج كبيرة. الفريق التقني يساعدك في الإعداد الأولي إذا احتجت.