From 260cb227402600305ad99de32a347712085e54a6 Mon Sep 17 00:00:00 2001 From: dschlueter Date: Mon, 11 May 2026 19:16:02 +0200 Subject: [PATCH] Add Qwopus3.6 coding docker-compose configuration --- docker-compose_Qwen3.6_Qwopus3.6_coding.yml | 95 +++++++++++++++++++++ 1 file changed, 95 insertions(+) create mode 100644 docker-compose_Qwen3.6_Qwopus3.6_coding.yml diff --git a/docker-compose_Qwen3.6_Qwopus3.6_coding.yml b/docker-compose_Qwen3.6_Qwopus3.6_coding.yml new file mode 100644 index 0000000..b482a1a --- /dev/null +++ b/docker-compose_Qwen3.6_Qwopus3.6_coding.yml @@ -0,0 +1,95 @@ +services: + qwen35b: + image: ghcr.io/ggml-org/llama.cpp:server-cuda + container_name: qwopus35b-moe-coding # eigener Name: vermeidet Konflikt mit qwen35b-moe-coding + restart: unless-stopped + + ports: + - "8000:8000" + + environment: + HF_HOME: /hf_home + NVIDIA_VISIBLE_DEVICES: "1,2" # Im Host‑System: 3090 = 1,2; T600 = 0 + + volumes: + - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro + + command: + - -m + - /hf_home/models/qwen3/Qwopus3.6-35B-A3B-v1-Q4_K_M.gguf + # --mmproj hier ergänzen sobald mmproj-Datei heruntergeladen: + - --mmproj + # - /hf_home/models/qwen3/mmproj-Qwopus3.6-35B-A3B-v1-f16.gguf + - /hf_home/models/qwen3/mmproj.gguf + + # Kontext & Ausgabe + + - -c + - "262144" # 256k: ideal für große Codeprojekte mit vielen Dateien im Kontext + - -n + - "16384" # 16k: reicht für komplexe Klassen, ganze Dateien, lange Erklärungen + + # Sampler + + - --temp + - "0.3" # Kompromiss: niedrig genug für edit-Tool-Präzision, variabel genug für kreatives Coding + - --top-p + - "0.95" # Qwen-Empfehlung + - --top-k + - "40" # Qwen-Empfehlung + - --min-p + - "0.01" # stabilisiert Sampling-Verteilung + - --repeat-penalty + - "1.05" # minimal: verhindert Text-Wiederholungsschleifen, schadet edit-Tool kaum + + # GPU-/Multi-GPU-Setup + - --main-gpu + - "0" # erste 3090 als Haupt-GPU im Container + - --tensor-split + - "0.5,0.5" # symmetrisch: beide 3090 haben je 24 GB VRAM + - -ngl + - "999" # alle Layer auf GPU auslagern + - -fa + - "on" # Flash Attention: optimierte Speicherzugriffe und Matmul + + # KV-Cache + - --kv-unified + - --cache-type-k + - q8_0 # guter Speed/Qualitäts-Kompromiss + - --cache-type-v + - q8_0 + + # Batching & Parallelität + - --batch-size + - "2048" # großer Prompt-Batch: schnellere Verarbeitung langer Datei-Kontexte + - --ubatch-size + - "1024" # SSM-Layer verarbeiten Micro-Batches effizienter als reiner Transformer + - --parallel + - "4" # Qwopus KV-Cache ~2.5 GB/Slot (2 KV-Heads × 10 Attention-Layer) → 4 Slots problemlos + - --cont-batching # kontinuierliches Batching aktivieren + + + # Server + + - --jinja + - --no-context-shift + - --host + - 0.0.0.0 + - --port + - "8000" + + healthcheck: + test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"] + interval: 30s + timeout: 5s + retries: 3 + start_period: 120s + + deploy: + resources: + reservations: + devices: + - driver: nvidia + device_ids: ["1", "2"] + capabilities: [gpu] +