Initial commit: Qwen3.6-MoE-35B-A3B server configuration and documentation

2026-05-11 15:01:09 +02:00 · 2026-05-11 15:01:09 +02:00 · b039061615
commit b039061615
16 changed files with 1672 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,76 @@
+# Environment files
+.env
+.env.local
+.env.*.local
+
+# Docker volumes and data
+docker/volumes/
+docker/data/
+docker/tmp/
+
+# Node modules (if used)
+node_modules/
+npm-debug.log*
+yarn-debug.log*
+yarn-error.log*
+
+# Python virtual environments
+venv/
+env/
+.env/
+.venv/
+*.egg-info/
+dist/
+build/
+
+# IDE files
+.vscode/
+.idea/
+*.swp
+*.swo
+*~
+
+# OS files
+.DS_Store
+Thumbs.db
+ehthumbs.db
+Desktop.ini
+$RECYCLE.BIN/
+
+# Logs
+logs/
+*.log
+npm-debug.log*
+yarn-debug.log*
+yarn-error.log*
+
+# Cache and temporary files
+.cache/
+.tmp/
+temp/
+tmp/
+
+# Docker build cache
+.docker/
+
+# Local configuration overrides
+docker-compose.override.yml
+
+# Hugging Face cache (if downloaded locally)
+.huggingface/
+
+# Model files (large binary files)
+*.gguf
+*.bin
+*.safetensors
+
+# Backup files
+*.bak
+*.backup
+*~
+
+# Credentials and sensitive data
+credentials/
+secrets/
+*.pem
+*.key
--- a/BEDIENUNGSANLEITUNG.md
+++ b/BEDIENUNGSANLEITUNG.md
@ -0,0 +1,339 @@
+# Bedienungshandbuch für Qwen3.6-MoE-35B-A3B Server
+
+Dieses Handbuch beschreibt die Installation, Konfiguration und den Betrieb der lokalen Qwen3.6-MoE-35B-A3B Inferenzserver mit llama.cpp.
+
+## Inhaltsverzeichnis
+1. [Systemvoraussetzungen](#systemvoraussetzungen)
+2. [Installation und Start](#installation-und-start)
+3. [Server-Verwaltung](#server-verwaltung)
+4. [Konfiguration und Parameter](#konfiguration-und-parameter)
+5. [Integration mit Pi](#integration-mit-pi)
+6. [API-Nutzung](#api-nutzung)
+7. [Fehlerbehebung](#fehlerbehebung)
+
+## Systemvoraussetzungen
+
+### Hardware
+- **GPU**: NVIDIA RTX 3090 (2x) oder equivalent mit je 24GB+ VRAM
+- **RAM**: 64GB+ System-RAM empfohlen
+- **Speicher**: 100GB+ für Modell-Dateien und Cache
+- **NVIDIA-Treiber**: Mindestens Version 535+ mit CUDA 12.x
+
+### Software
+- Docker Engine (Version 20.10+)
+- Docker Compose (Version 2.0+)
+- NVIDIA Container Toolkit
+- curl oder wget für Healthchecks
+
+## Installation und Start
+
+### Voraussetzungen prüfen
+```bash
+# GPU-Verfügbarkeit prüfen
+nvidia-smi
+
+# Docker-Version prüfen
+docker --version
+docker compose version
+
+# Verzeichnisstruktur erstellen
+mkdir -p ~/llama-server
+cd ~/llama-server
+```
+
+### Server starten
+
+#### Methode 1: Docker Compose (Empfohlen)
+```bash
+# In das Projektverzeichnis wechseln
+cd ~/llama-server
+
+# RAG-optimierten Server starten (Standard)
+docker compose up -d --force-recreate
+
+# Coding-optimierten Server starten
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml up -d --force-recreate
+
+# Uncensored-Variante starten
+docker compose -f docker-compose_Qwen3.6_Uncensored.yml up -d --force-recreate
+```
+
+#### Methode 2: Shell-Skripte
+```bash
+# Server-Modus (Hintergrunddienst)
+./run_qwen35b_server_tools.sh                    # Coding-optimiert
+./run_qwen35b_server_uncensored_rag_longctx.sh   # Uncensored + RAG
+./run_qwen35b_server_uncensored.sh                # Uncensored (kein RAG)
+
+# CLI-Modus (Kommandozeile)
+./run_qwen35b_cli_tools_rag_longctx.sh            # CLI mit RAG
+./run_qwen35b_cli_uncensored_rag_longctx.sh       # CLI Uncensored + RAG
+
+# Embedding-Server
+./run_bge_m3_embedding_server.sh
+```
+
+**Hinweis**: Alle Shell-Skripte stoppen automatisch existierende Container gleichen Namens vor dem Start.
+
+## Server-Verwaltung
+
+### Wichtige Regel
+> **Nur ein Server kann gleichzeitig auf Port 8000 laufen!**
+
+### Container-Namen und Konfigurationen
+
+| Container-Name | Modell | Konfigurationsdatei |
+|----------------|--------|---------------------|
+| qwen35b-moe-coding | Carnice | docker-compose_Qwen3.6_Tools_coding.yml |
+| qwen35b-moe-tools | Carnice | docker-compose_Qwen3.6_Tools.yml |
+| qwen35b-moe-rag-longctx | Carnice | docker-compose_Qwen3.6_Tools_RAG_faehig.yml |
+| qwen35b-moe-uncensored | Uncensored | docker-compose_Qwen3.6_Uncensored.yml |
+| qwen35b-moe-uncensored-rag | Uncensored | docker-compose_Qwen3.6_Uncensored_RAG_faehig.yml |
+| qwen35b-moe-uncensored-rag-longctx | Uncensored | run_qwen35b_server_uncensored_rag_longctx.sh |
+
+### Server stoppen und starten
+
+#### Container stoppen
+```bash
+# Nach Container-Namen stoppen
+docker rm -f qwen35b-moe-coding
+
+# Oder via docker-compose
+cd ~/llama-server
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml down
+
+# Alle laufenden Container anzeigen
+docker ps --format "table {{.Names}}\t{{.Status}}\t{{.Ports}}"
+```
+
+#### Server wechseln
+```bash
+cd ~/llama-server
+
+# Aktuellen Server stoppen
+docker rm -f qwen35b-moe-coding
+
+# Anderen Server starten
+docker compose -f docker-compose_Qwen3.6_Uncensored.yml up -d
+```
+
+### Healthcheck und Status
+```bash
+# Server-Status prüfen
+curl -fs http://localhost:8000/
+
+# Container-Logs anzeigen
+docker logs qwen35b-moe-rag-longctx
+
+# Container-Status prüfen
+docker inspect --format='{{.State.Health.Status}}' qwen35b-moe-rag-longctx
+```
+
+## Konfiguration und Parameter
+
+### Hardware-Konfiguration
+```yaml
+GPU:
+  Haupt-GPU: "0" (erste 3090)
+  Tensor-Split: "0.5,0.5" (symmetrisch)
+  Alle Layer auf GPU: -ngl 999
+  Flash Attention: -fa on
+
+KV-Cache:
+  Typ: q8_0 (K und V)
+  Unified Cache: --kv-unified
+```
+
+### Kontext- und Performance-Parameter
+| Parameter | Wert | Beschreibung |
+|-----------|------|--------------|
+| Kontext-Fenster | 262,144 (256k) | Für lange RAG-Kontexte |
+| Max. Ausgabe | 16,384 Token | Verhindert Text-Loops |
+| Parallel-Slots | 2 | Spart ~10GB KV-Cache |
+| Batch-Größe | 2,048 | Für lange Kontexte |
+| Ubatch-Größe | 512 | Passend zu batch-size |
+
+### Sampling-Parameter
+
+#### RAG-Modus (Standard)
+```yaml
+temperature: 0.2      # Niedriger für faktentreue Antworten
+top-p: 0.95           # Qwen-Empfehlung
+top-k: 40             # Qwen-Empfehlung
+min-p: 0.01           # Stabilisiert Sampling
+repeat-penalty: 1.05  # Verhindert Wiederholungen
+```
+
+#### Coding-Modus
+```yaml
+temperature: 0.3      # Kompromiss für Kreativität und Präzision
+top-p: 0.95
+top-k: 40
+min-p: 0.01
+repeat-penalty: 1.05
+```
+
+### Laufzeit-Parameter (ohne Neustart)
+Diese Parameter können pro API-Request überschrieben werden:
+- `temperature`
+- `top_p`
+- `top_k`
+- `min_p`
+- `repeat_penalty`
+- `max_tokens`
+
+**Beispiel**:
+```bash
+curl -X POST "http://localhost:8000/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "temperature": 0.0,
+    "top_k": 20,
+    "max_tokens": 512,
+    ...
+  }'
+```
+
+### Parameter mit Neustart erforderlich
+| Parameter | Grund |
+|-----------|-------|
+| `-c` (Kontext) | KV-Cache wird beim Start allokiert |
+| `--parallel` | Anzahl KV-Cache-Slots ist fest |
+| `-ngl`, `--tensor-split` | Modell wird beim Start auf GPU geladen |
+| `--kv-unified`, `--cache-type-*` | Cache-Struktur ist unveränderlich |
+| `--batch-size`, `--ubatch-size` | Interne Buffer-Allokation |
+| Modell-Datei | Offensichtlich |
+
+## Integration mit Pi
+
+### Architektur
+```
+MCP-Server ←──┐
+Extensions ←──┤
+  AGENTS.md ←─┤  Pi  ──→  llama-cpp Docker  ──→  GPU
+    Dateien ←──┘  (API-Request mit System-Prompt + Tools)
+```
+
+### 1. Dateien übergeben
+Pi liest Dateien mit dem `read`-Tool und sendet den Inhalt als Text im Prompt.
+
+**Automatisches Laden**:
+- AGENTS.md oder projektspezifische Context-Files beim Session-Start
+
+### 2. Prompts konfigurieren
+```bash
+~/.pi/agent/SYSTEM.md        # Ersetzt kompletten System-Prompt
+~/.pi/agent/APPEND_SYSTEM.md # Wird ans Ende angehängt
+```
+
+### 3. Tools verwenden
+**Eingebaute Tools**: read, write, edit, bash
+
+**Eigene Tools**: Als Pi-Extensions in `~/.pi/agent/extensions/` registriert. Das Modell sieht Tool-Definitionen im System-Prompt und ruft sie über OpenAI function-calling API auf (deshalb ist `--jinja` wichtig).
+
+### 4. MCP-Server einrichten
+In `settings.json`:
+```json
+{
+  "packages": [
+    "npm:pi-llama-cpp",
+    "npm:@modelcontextprotocol/server-filesystem",
+    "npm:irgendein-mcp-server"
+  ]
+}
+```
+
+Der MCP-Server läuft als Prozess neben pi — nicht im llama-cpp-Container.
+
+**Hinweis**: llama.cpp hat ein `--system-prompt`-Flag, aber das ist weniger flexibel als AGENTS.md und kollidiert mit pi's eigenem System-Prompt.
+
+## API-Nutzung
+
+### Chat Completions
+```bash
+curl -X POST "http://localhost:8000/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe",
+    "messages": [
+      { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent." },
+      { "role": "user",   "content": "Erkläre Quantencomputing in 3 Sätzen." }
+    ],
+    "max_tokens": 1024,
+    "temperature": 0.2,
+    "stream": false
+  }'
+```
+
+### Streaming aktivieren
+```bash
+curl -X POST "http://localhost:8000/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe",
+    "messages": [
+      { "role": "user", "content": "Schreibe eine kurze Geschichte." }
+    ],
+    "stream": true
+  }'
+```
+
+## Fehlerbehebung
+
+### Server antwortet nicht
+1. **GPU-Verfügbarkeit prüfen**: `nvidia-smi`
+2. **Modell-Datei existiert**: `/home/dschlueter/nvme2n1p7_home/huggingface/models/qwen3/`
+3. **Container-Logs prüfen**: `docker logs qwen35b-moe-rag-longctx`
+
+### GPU-Speicher-Probleme
+- Parallel-Slots von 2 auf 1 reduzieren
+- Batch-Größe von 2048 auf 1024 reduzieren
+- Uncensored-Variante verwenden (geringerer VRAM-Bedarf)
+
+### Verbindungsfehler
+- **Port 8000 belegt**: `lsof -i :8000` prüfen
+- **Firewall**: Firewall-Einstellungen überprüfen
+- **Container läuft**: `docker ps | grep qwen35b` prüfen
+
+### Container startet nicht
+1. **GPU-Zugriff**: NVIDIA Container Toolkit installieren
+2. **Speicher**: Ausreichend VRAM verfügbar?
+3. **Port-Konflikt**: Anderen Server stoppen
+
+### Modell-Datei nicht gefunden
+```bash
+# Pfad prüfen
+ls -la /home/dschlueter/nvme2n1p7_home/huggingface/models/qwen3/
+
+# Falls nötig, Modell herunterladen
+huggingface-cli download <model-name> --local-dir ./models
+```
+
+## Wartung und Backup
+
+### Modell aktualisieren
+1. Neue GGUF-Datei in HF_HOME-Pfad herunterladen
+2. docker-compose.yml oder Shell-Skript `-m` Parameter aktualisieren
+3. Container neu starten
+
+### Konfiguration sichern
+```bash
+# System-Prompts sichern
+cp ~/.pi/agent/SYSTEM.md ~/backup/
+cp ~/.pi/agent/APPEND_SYSTEM.md ~/backup/
+
+# Extensions sichern
+cp -r ~/.pi/agent/extensions/ ~/backup/
+
+# Docker-Konfigurationen sichern
+cp ~/llama-server/docker-compose*.yml ~/backup/
+```
+
+### Regelmäßige Wartung
+- **Wöchentlich**: Container-Logs prüfen
+- **Monatlich**: GPU-Treiber aktualisieren
+- **Bei Updates**: Docker und NVIDIA-Treiber updaten
+
+## Lizenz
+
+Dieses Projekt verwendet llama.cpp (Apache 2.0) und das Qwen3.6-MoE Modell. Die Modellnutzung unterliegt den Lizenzbedingungen des ursprünglichen Modells.
--- a/FAQs.md
+++ b/FAQs.md
@ -0,0 +1,162 @@
+# FAQ - Häufig gestellte Fragen
+
+## Server-Verwaltung
+
+### Wie stoppe und starte ich einen dieser Llama-Server?
+
+⚠️ **Wichtig**: Da alle Container Port 8000 belegen, kann immer nur einer gleichzeitig laufen.
+
+#### Server stoppen
+
+```bash
+# Laufenden Container nach Name stoppen (egal womit er gestartet wurde)
+docker rm -f qwen35b-moe-coding
+
+# Oder via docker-compose
+cd ~/llama-server
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml down
+
+# Welche Container gerade laufen:
+docker ps --format "table {{.Names}}\t{{.Status}}\t{{.Ports}}"
+```
+
+#### Server starten
+
+**Via Docker Compose (empfohlen — hat Healthcheck und restart: unless-stopped):**
+```bash
+cd ~/llama-server
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml up -d
+```
+
+**Via Shell-Script (mit Readiness-Check und Test-Request):**
+```bash
+cd ~/llama-server
+bash run_qwen35b_server_tools.sh
+```
+
+#### Wechsel zwischen zwei Servern
+
+```bash
+cd ~/llama-server
+
+# Aktuellen stoppen
+docker rm -f qwen35b-moe-coding
+
+# Anderen starten
+docker compose -f docker-compose_Qwen3.6_Uncensored.yml up -d
+```
+
+### Übersicht: Container-Namen ↔ Dateien
+
+| Container-Name | Modell | Konfigurationsdatei |
+|----------------|--------|---------------------|
+| `qwen35b-moe-coding` | Carnice | `docker-compose_Qwen3.6_Tools_coding.yml` |
+| `qwen35b-moe-tools` | Carnice | `docker-compose_Qwen3.6_Tools.yml` |
+| `qwen35b-moe-rag-longctx` | Carnice | `docker-compose_Qwen3.6_Tools_RAG_faehig.yml` |
+| `qwen35b-moe-uncensored` | Uncensored | `docker-compose_Qwen3.6_Uncensored.yml` |
+| `qwen35b-moe-uncensored-rag` | Uncensored | `docker-compose_Qwen3.6_Uncensored_RAG_faehig.yml` |
+| `qwen35b-moe-uncensored-rag-longctx` | Uncensored | `run_qwen35b_server_uncensored_rag_longctx.sh` |
+
+---
+
+### Wie beende ich einen laufenden Docker-Server und erzeuge und starte ich einen neuen?
+
+#### Beenden und löschen (Beispiel):
+```bash
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml rm -s -f qwen35b
+```
+
+#### Erzeugen und starten (Beispiel):
+```bash
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml up -d --force-recreate
+```
+
+---
+
+## Integration mit Pi
+
+### Wie kann ich diesen Docker-Containern mit Pi Dateien, Prompts, Tools oder MCP-Server übergeben?
+
+Das ist eine Architekturfrage. Die Docker-Container sind reine Inferenz-Backends — sie empfangen API-Requests und liefern Text zurück. Alles andere (Dateien, Prompts, Tools, MCP) wird auf der pi-Ebene verwaltet:
+
+```
+MCP-Server ←──┐
+Extensions ←──┤
+  AGENTS.md ←─┤  Pi  ──→  llama-cpp Docker  ──→  GPU
+   Dateien ←──┘  (API-Request mit System-Prompt + Tools)
+```
+
+#### Die vier Wege im Detail:
+
+**1. Dateien → per pi-Kontext**
+Pi liest Dateien mit dem `read`-Tool und schickt den Inhalt als Text im Prompt. Für automatisches Laden: AGENTS.md oder projektspezifische Context-Files (die pi beim Session-Start einliest).
+
+**2. Prompts → AGENTS.md / SYSTEM.md**
+Bereits eingerichtet. Zusätzlich gibt es:
+```bash
+~/.pi/agent/SYSTEM.md        # ersetzt den kompletten System-Prompt
+~/.pi/agent/APPEND_SYSTEM.md # wird ans Ende angehängt
+```
+
+**3. Tools**
+Pi hat eingebaute Tools (read, write, edit, bash). Eigene Tools werden als Pi-Extensions im Verzeichnis `~/.pi/agent/extensions/` registriert — du hast dort bereits eine (fact-checker). Das Modell sieht die Tool-Definitionen im System-Prompt und ruft sie über die OpenAI function-calling API auf (deshalb ist `--jinja` wichtig).
+
+**4. MCP-Server → Pi-Packages**
+Pi unterstützt MCP-Server als Packages. In deiner `settings.json` ist `npm:pi-llama-cpp` bereits eingetragen. Weitere MCP-Server werden analog hinzugefügt:
+```json
+{
+  "packages": [
+    "npm:pi-llama-cpp",
+    "npm:@modelcontextprotocol/server-filesystem",
+    "npm:irgendein-mcp-server"
+  ]
+}
+```
+Der MCP-Server läuft dann als Prozess neben pi — nicht im llama-cpp-Container.
+
+> **Einzige Ausnahme**: Statischer System-Prompt direkt im Container
+> llama.cpp hat einen `--system-prompt`-Flag, der einen festen Prompt beim Serverstart einbrennt. Das ist aber weniger flexibel als AGENTS.md und kollidiert mit pi's eigenem System-Prompt — daher eher nicht empfehlenswert.
+
+---
+
+## Server-Einstellungen
+
+### Kann ich die Server-Einstellungen im laufenden Betrieb ändern?
+
+**Größtenteils nein** — llama.cpp lädt alle Parameter beim Start und allokiert KV-Cache, GPU-Layer-Verteilung und Kontextfenster fest. Ein Neustart ist für Infrastruktur-Änderungen nötig.
+
+#### Was sich zur Laufzeit ändern lässt
+
+**Sampling-Parameter — pro API-Request überschreibbar:**
+Pi (und jeder andere API-Client) kann `temperature`, `top_p`, `top_k`, `repeat_penalty`, `max_tokens` in jedem einzelnen Request überschreiben — unabhängig vom Server-Default:
+
+```bash
+POST /v1/chat/completions
+{
+  "temperature": 0.0,
+  "top_k": 20,
+  "max_tokens": 512,
+  ...
+}
+```
+
+Der Server-Default gilt nur, wenn der Request den Parameter weglässt.
+
+**/props-Endpoint** — llama.cpp hat eine undokumentierte API zum Ändern weniger Server-Properties zur Laufzeit (z.B. `default_generation_settings`), aber das ist instabil und von pi nicht genutzt.
+
+#### Was einen Neustart erfordert
+
+| Parameter | Grund |
+|-----------|-------|
+| `-c` (Kontext) | KV-Cache wird beim Start allokiert |
+| `--parallel` | Anzahl KV-Cache-Slots ist fest |
+| `-ngl`, `--tensor-split` | Modell wird beim Start auf GPU geladen |
+| `--kv-unified`, `--cache-type-*` | Cache-Struktur ist nach dem Laden unveränderlich |
+| `--batch-size`, `--ubatch-size` | Interne Buffer-Allokation |
+| Modell-Datei | Offensichtlich |
+
+#### Fazit
+
+Für Experimente mit Sampling-Parametern (temp, top_k etc.) brauchst du keinen Neustart — du kannst sie direkt im pi-Prompt oder per API-Call testen. Für alles andere gilt: stoppen, Datei anpassen, neu starten.
+
+
--- a/README.md
+++ b/README.md
@ -0,0 +1,188 @@
+# Qwen3.6-MoE-35B-A3B Local Inference Server
+
+Local deployment of the **Carnice-Qwen3.6-MoE-35B-A3B** model using llama.cpp with GPU acceleration, optimized for different use cases (coding, RAG, uncensored).
+
+## Overview
+
+This project provides Docker-based inference servers for the Qwen3.6-MoE-35B-A3B model, running on NVIDIA GPUs via llama.cpp. Multiple configurations are available for different workflows:
+
+| Configuration | Description |
+|---------------|-------------|
+| `docker-compose_Qwen3.6_Tools_RAG_faehig.yml` | RAG-optimized with long context support (default) |
+| `docker-compose_Qwen3.6_Tools_coding.yml` | Coding-focused with tuned sampling parameters |
+| `docker-compose_Qwen3.6_Uncensored.yml` | Uncensored variant for unrestricted use |
+| `docker-compose_Qwen3.6_Uncensored_RAG_faehig.yml` | Uncensored + RAG support |
+
+**Model**: Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf (standard)  
+**Uncensored Model**: Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf  
+**Image**: ghcr.io/ggml-org/llama.cpp:server-cuda  
+**API Endpoint**: http://localhost:8000/v1/chat/completions
+
+## Architecture
+
+```
+MCP-Server ←──┐
+Extensions ←──┤
+  AGENTS.md ←─┤  Pi  ──→  llama-cpp Docker  ──→  GPU
+    Dateien ←──┘  (API-Request mit System-Prompt + Tools)
+```
+
+The Docker containers serve as pure inference backends. All file management, prompts, tools, and MCP servers are handled at the pi level.
+
+## Quick Start
+
+### Using Docker Compose (Recommended)
+
+```bash
+# Start RAG-optimized server (default)
+docker compose up -d --force-recreate
+
+# Start coding-optimized server
+docker compose -f docker-compose_Qwen3.6_Tools_coding.yml up -d --force-recreate
+
+# Stop and remove container
+docker compose rm -s -f qwen35b
+```
+
+### Using Shell Scripts
+
+#### Server Mode Scripts
+```bash
+# Start tools server (coding-optimized)
+./run_qwen35b_server_tools.sh
+
+# Start RAG-optimized server (uncensored)
+./run_qwen35b_server_uncensored_rag_longctx.sh
+
+# Start uncensored server (no RAG)
+./run_qwen35b_server_uncensored.sh
+```
+
+#### CLI Mode Scripts
+```bash
+# Start CLI mode for RAG
+./run_qwen35b_cli_tools_rag_longctx.sh
+
+# Start CLI mode for uncensored RAG
+./run_qwen35b_cli_uncensored_rag_longctx.sh
+```
+
+#### Embedding Server
+```bash
+# Start BGE-M3 embedding server
+./run_bge_m3_embedding_server.sh
+```
+
+**Note**: All shell scripts automatically stop any existing containers with the same name before starting new ones. Use `docker rm -f <container_name>` to manually stop servers.
+
+## Configuration Details
+
+### Hardware Requirements
+- **GPU**: NVIDIA RTX 3090 (2x) or equivalent with 24GB+ VRAM each
+- **RAM**: 64GB+ system RAM recommended
+- **Storage**: 100GB+ for model files and cache
+
+### GPU Setup
+- Primary GPU: device 0 (first 3090)
+- Tensor split: 0.5,0.5 (symmetric across both GPUs)
+- All layers offloaded to GPU (`-ngl 999`)
+- Flash Attention enabled for optimized memory access
+
+### Context & Performance
+- **Context window**: 262,144 tokens (256k)
+- **Max output**: 16,384 tokens
+- **Parallel slots**: 2 (saves ~10GB KV cache vs 4)
+- **Batch size**: 2,048 for long context processing
+- **KV cache**: q8_0 quantization for speed/quality balance
+
+### Sampling Parameters
+| Parameter | RAG Mode | Coding Mode |
+|-----------|----------|-------------|
+| Temperature | 0.2 | 0.3 |
+| Top-p | 0.95 | 0.95 |
+| Top-k | 40 | 40 |
+| Min-p | 0.01 | 0.01 |
+| Repeat penalty | 1.05 | 1.05 |
+
+## API Usage
+
+### Chat Completions
+
+```bash
+curl -X POST "http://localhost:8000/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe",
+    "messages": [
+      { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent." },
+      { "role": "user",   "content": "Erkläre Quantencomputing in 3 Sätzen." }
+    ],
+    "max_tokens": 1024,
+    "temperature": 0.2,
+    "stream": false
+  }'
+```
+
+### Health Check
+
+```bash
+curl -fs http://localhost:8000/
+```
+
+## Integration with Pi
+
+### Files
+Pi reads files using the `read` tool and sends content as prompt text. For automatic loading, use AGENTS.md or project-specific context files.
+
+### Prompts
+Configure via:
+- `~/.pi/agent/SYSTEM.md` — replaces complete system prompt
+- `~/.pi/agent/APPEND_SYSTEM.md` — appended to end of system prompt
+
+### Tools
+Built-in tools (read, write, edit, bash) plus custom extensions in `~/.pi/agent/extensions/`. The model uses OpenAI function-calling API via the `--jinja` flag.
+
+### MCP Servers
+Add to `settings.json`:
+```json
+"packages": [
+  "npm:pi-llama-cpp",
+  "npm:@modelcontextprotocol/server-filesystem",
+  "npm:irgendein-mcp-server"
+]
+```
+
+## Troubleshooting
+
+### Server Not Responding
+1. Check GPU availability: `nvidia-smi`
+2. Verify model file exists: `/home/dschlueter/nvme2n1p7_home/huggingface/models/qwen3/`
+3. Check container logs: `docker logs qwen35b-moe-rag-longctx`
+
+### GPU Memory Issues
+- Reduce parallel slots from 2 to 1
+- Lower batch size from 2048 to 1024
+- Use uncensored variant if VRAM is tight
+
+### Connection Refused
+- Ensure port 8000 is not in use: `lsof -i :8000`
+- Check firewall settings
+- Verify container is running: `docker ps | grep qwen35b`
+
+## Maintenance
+
+### Update Model
+1. Download new GGUF file to HF_HOME path
+2. Update docker-compose.yml or shell script `-m` parameter
+3. Restart container
+
+### Backup Configuration
+```bash
+cp ~/.pi/agent/SYSTEM.md ~/backup/
+cp ~/.pi/agent/APPEND_SYSTEM.md ~/backup/
+cp ~/.pi/agent/extensions/ ~/backup/ -r
+```
+
+## License
+
+This project uses llama.cpp (Apache 2.0) and the Qwen3.6-MoE model. Model usage subject to original model license terms.
--- a/docker-compose.yml
+++ b/docker-compose.yml
@ -0,0 +1 @@
+docker-compose_Qwen3.6_Tools_RAG_faehig.yml
--- a/docker-compose_Qwen3.6_Tools.yml
+++ b/docker-compose_Qwen3.6_Tools.yml
@ -0,0 +1,92 @@
+services:
+  qwen35b:
+    image: ghcr.io/ggml-org/llama.cpp:server-cuda
+    container_name: qwen35b-moe-tools
+    restart: unless-stopped
+
+    ports:
+      - "8000:8000"
+
+    environment:
+      HF_HOME: /hf_home
+      NVIDIA_VISIBLE_DEVICES: "1,2"  # Im Host‑System: 3090 = 1,2; T600 = 0
+
+    volumes:
+      - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro
+
+    command:
+      - -m
+      - /hf_home/models/qwen3/Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf
+
+      # Kontext & Ausgabe
+
+      - -c
+      - "262144"      # 256k: ideal für große Kontexte
+      - -n
+      - "16384"       # 16k: Begrenzung verhindert Text-Generierungs-Loops
+
+      # Sampler
+
+      - --temp
+      - "0.3"           # Kompromiss: niedrig genug für edit-Tool-Präzision, variabel genug für kreatives Coding
+      - --top-p
+      - "0.95"          # Qwen-Empfehlung
+      - --top-k
+      - "40"            # Qwen-Empfehlung
+      - --min-p
+      - "0.01"          # stabilisiert Sampling-Verteilung
+      - --repeat-penalty
+      - "1.05"          # minimal: verhindert Text-Wiederholungsschleifen, schadet edit-Tool kaum
+
+      # GPU-/Multi-GPU-Setup
+
+      - --main-gpu
+      - "0"               # erste 3090 als Haupt-GPU im Container
+      - --tensor-split
+      - "0.5,0.5"         # symmetrisch: beide 3090 haben je 24 GB VRAM
+      - -ngl
+      - "999"             # alle Layer auf GPU auslagern
+      - -fa
+      - "on"              # Flash Attention: optimierte Speicherzugriffe und Matmul
+
+      # KV-Cache
+
+      - --kv-unified
+      - --cache-type-k
+      - q8_0              # guter Speed/Qualitäts-Kompromiss
+      - --cache-type-v
+      - q8_0
+
+      # Batching & Parallelität
+
+      - --batch-size
+      - "2048"            # großer Prompt-Batch: schnellere Verarbeitung langer Kontexte
+      - --ubatch-size
+      - "512"             # passend zu batch-size
+      - --parallel
+      - "2"               # 2 parallele Slots für Single-User: spart ~10 GB KV-Cache
+      - --cont-batching   # kontinuierliches Batching aktivieren
+
+      # Server
+
+      - --jinja
+      - --no-context-shift
+      - --host
+      - 0.0.0.0
+      - --port
+      - "8000"
+
+    healthcheck:
+      test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"]
+      interval: 30s
+      timeout: 5s
+      retries: 3
+      start_period: 120s    # 35B-Modell braucht länger zum Laden
+
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              device_ids: ["1", "2"]    # beide 3090 (T600 = 0, nicht verwendet)
+              capabilities: [gpu]
--- a/docker-compose_Qwen3.6_Tools_RAG_faehig.yml
+++ b/docker-compose_Qwen3.6_Tools_RAG_faehig.yml
@ -0,0 +1,92 @@
+services:
+  qwen35b:
+    image: ghcr.io/ggml-org/llama.cpp:server-cuda
+    container_name: qwen35b-moe-rag-longctx
+    restart: unless-stopped
+
+    ports:
+      - "8000:8000"
+
+    environment:
+      HF_HOME: /hf_home
+      NVIDIA_VISIBLE_DEVICES: "1,2"  # Im Host‑System: 3090 = 1,2; T600 = 0
+
+    volumes:
+      - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro
+
+    command:
+      - -m
+      - /hf_home/models/qwen3/Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf
+
+      # Kontext & Ausgabe
+
+      - -c
+      - "262144"      # 256k: ideal für RAG mit langen Retrieval-Kontexten
+      - -n
+      - "16384"       # 16k: Begrenzung verhindert Text-Generierungs-Loops
+
+      # Sampler
+
+      - --temp
+      - "0.2"           # niedriger als Tools_coding: RAG braucht faktentreue, präzise Antworten
+      - --top-p
+      - "0.95"          # Qwen-Empfehlung
+      - --top-k
+      - "40"            # Qwen-Empfehlung (0 = deaktiviert wäre zu unscharf)
+      - --min-p
+      - "0.01"          # stabilisiert Sampling-Verteilung
+      - --repeat-penalty
+      - "1.05"          # minimal: verhindert Text-Wiederholungsschleifen
+
+      # GPU-/Multi-GPU-Setup
+
+      - --main-gpu
+      - "0"               # erste 3090 als Haupt-GPU im Container
+      - --tensor-split
+      - "0.5,0.5"         # symmetrisch: beide 3090 haben je 24 GB VRAM
+      - -ngl
+      - "999"             # alle Layer auf GPU auslagern
+      - -fa
+      - "on"              # Flash Attention: optimierte Speicherzugriffe und Matmul
+
+      # KV-Cache
+
+      - --kv-unified
+      - --cache-type-k
+      - q8_0              # guter Speed/Qualitäts-Kompromiss
+      - --cache-type-v
+      - q8_0
+
+      # Batching & Parallelität
+
+      - --batch-size
+      - "2048"            # großer Prompt-Batch: schnellere Verarbeitung langer RAG-Kontexte
+      - --ubatch-size
+      - "512"             # passend zu batch-size
+      - --parallel
+      - "2"               # 2 parallele Slots für Single-User: spart ~10 GB KV-Cache
+      - --cont-batching   # kontinuierliches Batching aktivieren
+
+      # Server
+
+      - --jinja
+      - --no-context-shift
+      - --host
+      - 0.0.0.0
+      - --port
+      - "8000"
+
+    healthcheck:
+      test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"]
+      interval: 30s
+      timeout: 5s
+      retries: 3
+      start_period: 120s
+
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              device_ids: ["1", "2"]    # beide 3090 (T600 = 0, nicht verwendet)
+              capabilities: [gpu]
--- a/docker-compose_Qwen3.6_Tools_coding.yml
+++ b/docker-compose_Qwen3.6_Tools_coding.yml
@ -0,0 +1,91 @@
+services:
+  qwen35b:
+    image: ghcr.io/ggml-org/llama.cpp:server-cuda
+    container_name: qwen35b-moe-coding
+    restart: unless-stopped
+
+    ports:
+      - "8000:8000"
+
+    environment:
+      HF_HOME: /hf_home
+      NVIDIA_VISIBLE_DEVICES: "1,2"  # Im Host‑System: 3090 = 1,2; T600 = 0
+
+    volumes:
+      - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro
+
+    command:
+      - -m
+      - /hf_home/models/qwen3/Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf
+      
+      # Kontext & Ausgabe
+
+      - -c
+      - "262144"      # 256k: ideal für große Codeprojekte mit vielen Dateien im Kontext
+      - -n
+      - "16384"       # 16k: reicht für komplexe Klassen, ganze Dateien, lange Erklärungen
+
+      # Sampler
+
+      - --temp
+      - "0.3"           # Kompromiss: niedrig genug für edit-Tool-Präzision, variabel genug für kreatives Coding
+      - --top-p
+      - "0.95"          # Qwen-Empfehlung
+      - --top-k
+      - "40"            # Qwen-Empfehlung
+      - --min-p
+      - "0.01"          # stabilisiert Sampling-Verteilung
+      - --repeat-penalty
+      - "1.05"          # minimal: verhindert Text-Wiederholungsschleifen, schadet edit-Tool kaum
+
+      # GPU-/Multi-GPU-Setup
+      - --main-gpu
+      - "0"               # erste 3090 als Haupt-GPU im Container
+      - --tensor-split
+      - "0.5,0.5"         # symmetrisch: beide 3090 haben je 24 GB VRAM
+      - -ngl
+      - "999"             # alle Layer auf GPU auslagern
+      - -fa
+      - "on"              # Flash Attention: optimierte Speicherzugriffe und Matmul
+
+      # KV-Cache
+      - --kv-unified
+      - --cache-type-k
+      - q8_0              # guter Speed/Qualitäts-Kompromiss
+      - --cache-type-v
+      - q8_0
+
+      # Batching & Parallelität
+      - --batch-size
+      - "2048"            # großer Prompt-Batch: schnellere Verarbeitung langer Datei-Kontexte
+      - --ubatch-size
+      - "512"             # passend zu batch-size
+      - --parallel
+      - "2"               # 2 parallele Slots für Single-User: spart ~10 GB KV-Cache vs. 4
+      - --cont-batching   # kontinuierliches Batching aktivieren
+
+     
+      # Server
+      
+      - --jinja
+      - --no-context-shift
+      - --host
+      - 0.0.0.0
+      - --port
+      - "8000"
+
+    healthcheck:
+      test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"]
+      interval: 30s
+      timeout: 5s
+      retries: 3
+      start_period: 120s
+
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              device_ids: ["1", "2"]
+              capabilities: [gpu]
+
--- a/docker-compose_Qwen3.6_Uncensored.yml
+++ b/docker-compose_Qwen3.6_Uncensored.yml
@ -0,0 +1,92 @@
+services:
+  qwen35b:
+    image: ghcr.io/ggml-org/llama.cpp:server-cuda
+    container_name: qwen35b-moe-uncensored
+    restart: unless-stopped
+
+    ports:
+      - "8000:8000"
+
+    environment:
+      HF_HOME: /hf_home
+      NVIDIA_VISIBLE_DEVICES: "1,2"  # Im Host‑System: 3090 = 1,2; T600 = 0
+
+    volumes:
+      - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro
+
+    command:
+      - -m
+      - /hf_home/models/qwen3/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
+
+      # Kontext & Ausgabe
+
+      - -c
+      - "262144"      # 256k: ideal für große Kontexte
+      - -n
+      - "16384"       # 16k: Begrenzung verhindert Text-Generierungs-Loops
+
+      # Sampler
+
+      - --temp
+      - "0.6"           # höher als Tools_coding: Uncensored-Modell für kreativere Aufgaben
+      - --top-p
+      - "0.95"          # Qwen-Empfehlung
+      - --top-k
+      - "40"            # Qwen-Empfehlung
+      - --min-p
+      - "0.01"          # stabilisiert Sampling-Verteilung
+      - --repeat-penalty
+      - "1.05"          # minimal: verhindert Text-Wiederholungsschleifen
+
+      # GPU-/Multi-GPU-Setup
+
+      - --main-gpu
+      - "0"               # erste 3090 als Haupt-GPU im Container
+      - --tensor-split
+      - "0.5,0.5"         # symmetrisch: beide 3090 haben je 24 GB VRAM
+      - -ngl
+      - "999"             # alle Layer auf GPU auslagern
+      - -fa
+      - "on"              # Flash Attention: optimierte Speicherzugriffe und Matmul
+
+      # KV-Cache
+
+      - --kv-unified
+      - --cache-type-k
+      - q8_0              # guter Speed/Qualitäts-Kompromiss
+      - --cache-type-v
+      - q8_0
+
+      # Batching & Parallelität
+
+      - --batch-size
+      - "2048"            # großer Prompt-Batch: schnellere Verarbeitung langer Kontexte
+      - --ubatch-size
+      - "512"             # passend zu batch-size
+      - --parallel
+      - "2"               # 2 parallele Slots für Single-User: spart ~10 GB KV-Cache
+      - --cont-batching   # kontinuierliches Batching aktivieren
+
+      # Server
+
+      - --jinja
+      - --no-context-shift
+      - --host
+      - 0.0.0.0
+      - --port
+      - "8000"
+
+    healthcheck:
+      test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"]
+      interval: 30s
+      timeout: 5s
+      retries: 3
+      start_period: 120s    # 35B-Modell braucht länger zum Laden
+
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              device_ids: ["1", "2"]    # beide 3090 (T600 = 0, nicht verwendet)
+              capabilities: [gpu]
--- a/docker-compose_Qwen3.6_Uncensored_RAG_faehig.yml
+++ b/docker-compose_Qwen3.6_Uncensored_RAG_faehig.yml
@ -0,0 +1,92 @@
+services:
+  qwen35b:
+    image: ghcr.io/ggml-org/llama.cpp:server-cuda
+    container_name: qwen35b-moe-uncensored-rag    # eindeutiger Name, kein Konflikt mit RAG_faehig
+    restart: unless-stopped
+
+    ports:
+      - "8000:8000"
+
+    environment:
+      HF_HOME: /hf_home
+      NVIDIA_VISIBLE_DEVICES: "1,2"  # Im Host‑System: 3090 = 1,2; T600 = 0
+
+    volumes:
+      - /home/dschlueter/nvme2n1p7_home/huggingface:/hf_home:ro
+
+    command:
+      - -m
+      - /hf_home/models/qwen3/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
+
+      # Kontext & Ausgabe
+
+      - -c
+      - "262144"      # 256k: ideal für RAG mit langen Retrieval-Kontexten
+      - -n
+      - "16384"       # 16k: Begrenzung verhindert Text-Generierungs-Loops
+
+      # Sampler
+
+      - --temp
+      - "0.2"           # niedrig: RAG braucht faktentreue, präzise Antworten
+      - --top-p
+      - "0.95"          # Qwen-Empfehlung
+      - --top-k
+      - "40"            # Qwen-Empfehlung (0 = deaktiviert wäre zu unscharf)
+      - --min-p
+      - "0.01"          # stabilisiert Sampling-Verteilung
+      - --repeat-penalty
+      - "1.05"          # minimal: verhindert Text-Wiederholungsschleifen
+
+      # GPU-/Multi-GPU-Setup
+
+      - --main-gpu
+      - "0"               # erste 3090 als Haupt-GPU im Container
+      - --tensor-split
+      - "0.5,0.5"         # symmetrisch: beide 3090 haben je 24 GB VRAM
+      - -ngl
+      - "999"             # alle Layer auf GPU auslagern
+      - -fa
+      - "on"              # Flash Attention: optimierte Speicherzugriffe und Matmul
+
+      # KV-Cache
+
+      - --kv-unified
+      - --cache-type-k
+      - q8_0              # guter Speed/Qualitäts-Kompromiss
+      - --cache-type-v
+      - q8_0
+
+      # Batching & Parallelität
+
+      - --batch-size
+      - "2048"            # großer Prompt-Batch: schnellere Verarbeitung langer RAG-Kontexte
+      - --ubatch-size
+      - "512"             # passend zu batch-size
+      - --parallel
+      - "2"               # 2 parallele Slots für Single-User: spart ~10 GB KV-Cache
+      - --cont-batching   # kontinuierliches Batching aktivieren
+
+      # Server
+
+      - --jinja
+      - --no-context-shift
+      - --host
+      - 0.0.0.0
+      - --port
+      - "8000"
+
+    healthcheck:
+      test: ["CMD-SHELL", "curl -fs http://localhost:8000/ || exit 1"]
+      interval: 30s
+      timeout: 5s
+      retries: 3
+      start_period: 120s
+
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              device_ids: ["1", "2"]    # beide 3090 (T600 = 0, nicht verwendet)
+              capabilities: [gpu]
--- a/run_bge_m3_embedding_server.sh
+++ b/run_bge_m3_embedding_server.sh
@ -0,0 +1,81 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Konfiguration
+HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"
+MODEL_REL_PATH="models/embeddings/bge-m3-q8_0.gguf"
+IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"
+CONTAINER_NAME="qwen-embeddings"
+HOST_PORT=8001
+CONTAINER_PORT=8001
+
+echo "[*] Verwende HF_HOME = $HF_HOME"
+if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then
+  echo "[!] Embedding-Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2
+  exit 1
+fi
+
+# Optional: altes gleichnamiges Container-Exemplar stoppen
+if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}\\$"; then
+  echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."
+  docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 || true
+fi
+
+echo "[*] Starte llama.cpp-Embedding-Server-Container ($IMAGE) ..."
+
+docker run -d --gpus '"device=0"' \
+  --name "$CONTAINER_NAME" \
+  -e HF_HOME="/hf_home" \
+  -v "$HF_HOME:/hf_home:ro" \
+  -p "${HOST_PORT}:${CONTAINER_PORT}" \
+  "$IMAGE" \
+    --embedding \
+    -m "/hf_home/${MODEL_REL_PATH}" \
+    -c 8192 \
+    -ngl 999 \
+    -fa on \
+    --batch-size 1024 \
+    --ubatch-size 512 \
+    --host 0.0.0.0 \
+    --port "$CONTAINER_PORT"
+
+echo "[*] Container gestartet: $CONTAINER_NAME"
+echo "[*] Warte, bis HTTP-Port ${HOST_PORT} antwortet ..."
+
+READY=0
+for i in {1..60}; do
+  if curl -s "http://localhost:${HOST_PORT}/" >/dev/null 2>&1; then
+    echo "[*] Server antwortet auf http://localhost:${HOST_PORT}/"
+    READY=1
+    break
+  fi
+  echo "[*] Warte (${i}/60) ..."
+  sleep 2
+done
+
+if [ "$READY" -ne 1 ]; then
+  echo "[!] Embedding-Server wurde nicht rechtzeitig erreichbar." >&2
+  echo "[*] Letzte Container-Logs:"
+  docker logs --tail 200 "$CONTAINER_NAME" || true
+  exit 1
+fi
+
+sleep 3
+
+echo "[*] Sende Test-Embedding-Request an /v1/embeddings ..."
+
+RESPONSE="$(curl -s -X POST "http://localhost:${HOST_PORT}/v1/embeddings" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "bge-m3-q8_0",
+    "input": "Dies ist ein kurzer Testtext für den Embedding-Server."
+  }')"
+
+echo
+echo "[*] Antwort vom Server:"
+echo "$RESPONSE"
+
+echo
+echo "[*] Zum Stoppen des Servers:"
+echo "    docker rm -f $CONTAINER_NAME"
+
--- a/run_qwen35b_cli_tools_rag_longctx.sh
+++ b/run_qwen35b_cli_tools_rag_longctx.sh
@ -0,0 +1,25 @@
+
+docker run --rm -it \
+  --gpus '"device=1,2"' \
+  -p 8000:8000 \
+  -v "$HF_HOME/models/qwen3:/models" \
+  ghcr.io/ggml-org/llama.cpp:server-cuda \
+  -m /models/Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf \
+  -c 262144 \
+  -n 16384 \
+  --jinja \
+  --no-context-shift \
+  --temp 0.2 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.05 \
+  --main-gpu 0 \
+  --tensor-split 0.5,0.5 \
+  -ngl 999 \
+  -fa on \
+  --kv-unified \
+  --cache-type-k q8_0 \
+  --cache-type-v q8_0 \
+  --batch-size 2048 \
+  --ubatch-size 512 \
+  --parallel 2 \
+  --cont-batching \
+  --host 0.0.0.0 \
+  --port 8000
--- a/run_qwen35b_cli_uncensored_rag_longctx.sh
+++ b/run_qwen35b_cli_uncensored_rag_longctx.sh
@ -0,0 +1,25 @@
+
+docker run --rm -it \
+  --gpus '"device=1,2"' \
+  -p 8000:8000 \
+  -v "$HF_HOME/models/qwen3:/models" \
+  ghcr.io/ggml-org/llama.cpp:server-cuda \
+  -m /models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
+  -c 262144 \
+  -n 16384 \
+  --jinja \
+  --no-context-shift \
+  --temp 0.2 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.05 \
+  --main-gpu 0 \
+  --tensor-split 0.5,0.5 \
+  -ngl 999 \
+  -fa on \
+  --kv-unified \
+  --cache-type-k q8_0 \
+  --cache-type-v q8_0 \
+  --batch-size 2048 \
+  --ubatch-size 512 \
+  --parallel 2 \
+  --cont-batching \
+  --host 0.0.0.0 \
+  --port 8000
--- a/run_qwen35b_server_tools.sh
+++ b/run_qwen35b_server_tools.sh
@ -0,0 +1,89 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Konfiguration
+HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"
+MODEL_REL_PATH="models/qwen3/Carnice-Qwen3.6-MoE-35B-A3B-Q4_K_M.gguf"
+IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"
+CONTAINER_NAME="qwen35b-moe-tools"
+HOST_PORT=8000
+CONTAINER_PORT=8000
+
+echo "[*] Verwende HF_HOME = $HF_HOME"
+if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then
+  echo "[!] Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2
+  exit 1
+fi
+
+# Optional: altes gleichnamiges Container-Exemplar stoppen
+if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}\$"; then
+  echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."
+  docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 || true
+fi
+
+echo "[*] Starte llama.cpp-Server-Container ($IMAGE) ..."
+
+docker run -d \
+  --gpus '"device=1,2"' \
+  --name "$CONTAINER_NAME" \
+  --restart unless-stopped \
+  -e HF_HOME="/hf_home" \
+  -v "$HF_HOME:/hf_home:ro" \
+  -p "${HOST_PORT}:${CONTAINER_PORT}" \
+  "$IMAGE" \
+    -m "/hf_home/${MODEL_REL_PATH}" \
+    -c 262144 \
+    -n 16384 \
+    --temp 0.3 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.05 \
+    --main-gpu 0 \
+    --tensor-split 0.5,0.5 \
+    -ngl 999 \
+    -fa on \
+    --kv-unified \
+    --cache-type-k q8_0 \
+    --cache-type-v q8_0 \
+    --batch-size 2048 \
+    --ubatch-size 512 \
+    --parallel 2 \
+    --cont-batching \
+    --jinja \
+    --no-context-shift \
+    --host 0.0.0.0 \
+    --port "$CONTAINER_PORT"
+
+echo "[*] Container gestartet: $CONTAINER_NAME"
+echo "[*] Warte, bis HTTP-Port ${HOST_PORT} antwortet ..."
+
+for i in {1..60}; do
+  if curl -s "http://localhost:${HOST_PORT}/" >/dev/null 2>&1; then
+    echo "[*] Server antwortet auf http://localhost:${HOST_PORT}/"
+    break
+  fi
+  echo "[*] Warte (${i}/60) ..."
+  sleep 2
+done
+
+sleep 5
+
+echo "[*] Sende Test-Chat-Request an /v1/chat/completions ..."
+
+RESPONSE="$(curl -s -X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe",
+    "messages": [
+      { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent." },
+      { "role": "user",   "content": "Gib eine sehr kurze Selbstdiagnose deiner Fähigkeiten." }
+    ],
+    "max_tokens": 64,
+    "temperature": 0.3,
+    "stream": false
+  }')"
+
+echo
+echo "[*] Antwort vom Server:"
+echo "$RESPONSE"
+
+echo
+echo "[*] Zum Stoppen des Servers:"
+echo "    docker rm -f $CONTAINER_NAME"
--- a/run_qwen35b_server_uncensored.sh
+++ b/run_qwen35b_server_uncensored.sh
@ -0,0 +1,89 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Konfiguration
+HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"
+MODEL_REL_PATH="models/qwen3/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf"
+IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"
+CONTAINER_NAME="qwen35b-moe-uncensored"
+HOST_PORT=8000
+CONTAINER_PORT=8000
+
+echo "[*] Verwende HF_HOME = $HF_HOME"
+if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then
+  echo "[!] Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2
+  exit 1
+fi
+
+# Optional: altes gleichnamiges Container-Exemplar stoppen
+if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}\$"; then
+  echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."
+  docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 || true
+fi
+
+echo "[*] Starte llama.cpp-Server-Container ($IMAGE) ..."
+
+docker run -d \
+  --gpus '"device=1,2"' \
+  --name "$CONTAINER_NAME" \
+  --restart unless-stopped \
+  -e HF_HOME="/hf_home" \
+  -v "$HF_HOME:/hf_home:ro" \
+  -p "${HOST_PORT}:${CONTAINER_PORT}" \
+  "$IMAGE" \
+    -m "/hf_home/${MODEL_REL_PATH}" \
+    -c 262144 \
+    -n 16384 \
+    --temp 0.6 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.05 \
+    --main-gpu 0 \
+    --tensor-split 0.5,0.5 \
+    -ngl 999 \
+    -fa on \
+    --kv-unified \
+    --cache-type-k q8_0 \
+    --cache-type-v q8_0 \
+    --batch-size 2048 \
+    --ubatch-size 512 \
+    --parallel 2 \
+    --cont-batching \
+    --jinja \
+    --no-context-shift \
+    --host 0.0.0.0 \
+    --port "$CONTAINER_PORT"
+
+echo "[*] Container gestartet: $CONTAINER_NAME"
+echo "[*] Warte, bis HTTP-Port ${HOST_PORT} antwortet ..."
+
+for i in {1..60}; do
+  if curl -s "http://localhost:${HOST_PORT}/" >/dev/null 2>&1; then
+    echo "[*] Server antwortet auf http://localhost:${HOST_PORT}/"
+    break
+  fi
+  echo "[*] Warte (${i}/60) ..."
+  sleep 2
+done
+
+sleep 5
+
+echo "[*] Sende Test-Chat-Request an /v1/chat/completions ..."
+
+RESPONSE="$(curl -s -X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe",
+    "messages": [
+      { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent." },
+      { "role": "user",   "content": "Gib eine sehr kurze Selbstdiagnose deiner Fähigkeiten." }
+    ],
+    "max_tokens": 64,
+    "temperature": 0.6,
+    "stream": false
+  }')"
+
+echo
+echo "[*] Antwort vom Server:"
+echo "$RESPONSE"
+
+echo
+echo "[*] Zum Stoppen des Servers:"
+echo "    docker rm -f $CONTAINER_NAME"
--- a/run_qwen35b_server_uncensored_rag_longctx.sh
+++ b/run_qwen35b_server_uncensored_rag_longctx.sh
@ -0,0 +1,138 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Konfiguration
+HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"
+MODEL_REL_PATH="models/qwen3/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf"
+IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"
+CONTAINER_NAME="qwen35b-moe-uncensored-rag-longctx"
+HOST_PORT=8000
+CONTAINER_PORT=8000
+
+echo "[*] Verwende HF_HOME = $HF_HOME"
+if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then
+  echo "[!] Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2
+  exit 1
+fi
+
+# Optional: altes gleichnamiges Container-Exemplar stoppen
+if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}\\$"; then
+  echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."
+  docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 || true
+fi
+
+echo "[*] Starte llama.cpp-Server-Container ($IMAGE) ..."
+echo "[*] Modus: Uncensored, RAG-fähig, Long Context"
+
+docker run -d \
+  --gpus '"device=1,2"' \
+  --name "$CONTAINER_NAME" \
+  --restart unless-stopped \
+  -e HF_HOME="/hf_home" \
+  -v "$HF_HOME:/hf_home:ro" \
+  -p "${HOST_PORT}:${CONTAINER_PORT}" \
+  "$IMAGE" \
+    -m "/hf_home/${MODEL_REL_PATH}" \
+    -c 262144 \
+    -n 16384 \
+    --jinja \
+    --no-context-shift \
+    --temp 0.2 \
+    --top-p 0.95 \
+    --top-k 40 \
+    --min-p 0.01 \
+    --repeat-penalty 1.05 \
+    --main-gpu 0 \
+    --tensor-split 0.5,0.5 \
+    -ngl 999 \
+    -fa on \
+    --kv-unified \
+    --cache-type-k q8_0 \
+    --cache-type-v q8_0 \
+    --batch-size 2048 \
+    --ubatch-size 512 \
+    --parallel 2 \
+    --cont-batching \
+    --host 0.0.0.0 \
+    --port "$CONTAINER_PORT"
+
+echo "[*] Container gestartet: $CONTAINER_NAME"
+echo "[*] Warte, bis HTTP-Port ${HOST_PORT} antwortet ..."
+
+HTTP_READY=0
+for i in {1..90}; do
+  if curl -s "http://localhost:${HOST_PORT}/" >/dev/null 2>&1; then
+    echo "[*] Server antwortet auf http://localhost:${HOST_PORT}/"
+    HTTP_READY=1
+    break
+  fi
+  echo "[*] Warte (${i}/90) auf HTTP ..."
+  sleep 2
+done
+
+if [ "$HTTP_READY" -ne 1 ]; then
+  echo "[!] HTTP-Server wurde nicht rechtzeitig erreichbar." >&2
+  echo "[*] Letzte Container-Logs:"
+  docker logs --tail 200 "$CONTAINER_NAME" || true
+  exit 1
+fi
+
+echo "[*] Warte, bis das Modell wirklich geladen ist ..."
+
+MODEL_READY=0
+for i in {1..180}; do
+  HTTP_CODE="$(curl -s -o /tmp/${CONTAINER_NAME}_ready.json -w "%{http_code}" \
+    -X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \
+    -H "Content-Type: application/json" \
+    -d '{
+      "model": "qwen3.6-35b-a3b-moe-rag-longctx",
+      "messages": [
+        { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent." },
+        { "role": "user",   "content": "Antworte nur mit dem Wort: bereit" }
+      ],
+      "max_tokens": 8,
+      "temperature": 0.0,
+      "stream": false
+    }' || true)"
+
+  BODY="$(cat /tmp/${CONTAINER_NAME}_ready.json 2>/dev/null || true)"
+
+  if [ "$HTTP_CODE" = "200" ]; then
+    echo "[*] Modell ist geladen und antwortet."
+    MODEL_READY=1
+    break
+  fi
+
+  echo "[*] Warte (${i}/180) auf Modell ... HTTP ${HTTP_CODE} - ${BODY}"
+  sleep 5
+done
+
+if [ "$MODEL_READY" -ne 1 ]; then
+  echo "[!] Modell wurde nicht rechtzeitig bereit." >&2
+  echo "[*] Letzte Container-Logs:"
+  docker logs --tail 200 "$CONTAINER_NAME" || true
+  exit 1
+fi
+
+echo "[*] Sende finalen Test-Chat-Request an /v1/chat/completions ..."
+
+RESPONSE="$(curl -s -X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "qwen3.6-35b-a3b-moe-rag-longctx",
+    "messages": [
+      { "role": "system", "content": "Du bist ein hilfreicher deutscher Assistent für RAG-gestützte Wissensarbeit." },
+      { "role": "user",   "content": "Antworte in einem Satz: Der Server für sehr langen Kontext ist betriebsbereit." }
+    ],
+    "max_tokens": 64,
+    "temperature": 0.2,
+    "stream": false
+  }')"
+
+echo
+echo "[*] Antwort vom Server:"
+echo "$RESPONSE"
+
+echo
+echo "[*] Zum Stoppen des Servers:"
+echo "    docker rm -f $CONTAINER_NAME"