pi_coder/start-coder.sh

#!/usr/bin/env bash
set -euo pipefail

HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"
MODEL_REL_PATH="models/qwen3/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf"
IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"
CONTAINER_NAME="qwen36-27b-coder"
HOST_PORT=8001
CONTAINER_PORT=8000
MODEL_ALIAS="qwen3.5-coder"

echo "[*] Verwende HF_HOME = $HF_HOME"
if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then
  echo "[!] Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2
  exit 1
fi

if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}\$"; then
  echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."
  docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 || true
fi

echo "[*] Starte llama.cpp-Server für Coder ..."
docker run -d \
  --gpus '"device=1,2"' \
  --name "$CONTAINER_NAME" \
  --restart unless-stopped \
  -e HF_HOME="/hf_home" \
  -v "$HF_HOME:/hf_home:ro" \
  -p "${HOST_PORT}:${CONTAINER_PORT}" \
  "$IMAGE" \
    -m "/hf_home/${MODEL_REL_PATH}" \
    --alias "${MODEL_ALIAS}" \
    -c 262144 \
    -n 16384 \
    --jinja \
    --chat-template-kwargs '{"enable_thinking":true}' \
    --no-context-shift \
    --temp 0.6 \
    --top-p 0.80 \
    --top-k 20 \
    --min-p 0.01 \
    --repeat-penalty 1.05 \
    --main-gpu 0 \
    --tensor-split 0.5,0.5 \
    -ngl 999 \
    -fa on \
    --kv-unified \
    --cache-type-k q4_0 \
    --cache-type-v q4_0 \
    --batch-size 1024 \
    --ubatch-size 512 \
    --parallel 1 \
    --cont-batching \
    --host 0.0.0.0 \
    --port "$CONTAINER_PORT"

echo "[*] Warte auf Modell-Bereitschaft (Completion-Check, max. 180 s) ..."
MODEL_READY=0
for i in {1..90}; do
  HTTP_CODE=$(curl -s -o /dev/null -w "%{http_code}" --max-time 10 \
    -X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \
    -H "Content-Type: application/json" \
    -d "{\"model\":\"${MODEL_ALIAS}\",\"messages\":[{\"role\":\"user\",\"content\":\"ping\"}],\"max_tokens\":1,\"temperature\":0.0,\"stream\":false}")
  if [ "$HTTP_CODE" = "200" ]; then MODEL_READY=1; break; fi
  echo "  [${i}/90] HTTP ${HTTP_CODE:-000} — Modell lädt noch, warte 2s ..."
  sleep 2
done

if [ "$MODEL_READY" -ne 1 ]; then
  echo "[!] Modell wurde nicht rechtzeitig bereit (kein HTTP 200 auf Completion)." >&2
  docker logs --tail 200 "$CONTAINER_NAME" || true
  exit 1
fi

echo "[*] Modell bereit — erster Completion-Request erfolgreich (HTTP 200)."
echo "[*] Server läuft auf http://0.0.0.0:${HOST_PORT}"
echo "[*] Stoppen mit: docker rm -f ${CONTAINER_NAME}"
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`#!/usr/bin/env bash`
			`set -euo pipefail`

			`HF_HOME="${HF_HOME:-/home/dschlueter/nvme2n1p7_home/huggingface}"`
			`MODEL_REL_PATH="models/qwen3/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf"`
			`IMAGE="ghcr.io/ggml-org/llama.cpp:server-cuda"`
			`CONTAINER_NAME="qwen36-27b-coder"`
			`HOST_PORT=8001`
			`CONTAINER_PORT=8000`
			`MODEL_ALIAS="qwen3.5-coder"`

			`echo "[*] Verwende HF_HOME = $HF_HOME"`
			`if [ ! -f "$HF_HOME/$MODEL_REL_PATH" ]; then`
			`echo "[!] Modell-Datei nicht gefunden: $HF_HOME/$MODEL_REL_PATH" >&2`
			`exit 1`
			`fi`

			`if docker ps -a --format '{{.Names}}' \| grep -q "^${CONTAINER_NAME}\$"; then`
			`echo "[*] Stoppe existierenden Container $CONTAINER_NAME ..."`
			`docker rm -f "$CONTAINER_NAME" >/dev/null 2>&1 \|\| true`
			`fi`

			`echo "[*] Starte llama.cpp-Server für Coder ..."`
			`docker run -d \`
			`--gpus '"device=1,2"' \`
			`--name "$CONTAINER_NAME" \`
			`--restart unless-stopped \`
			`-e HF_HOME="/hf_home" \`
			`-v "$HF_HOME:/hf_home:ro" \`
			`-p "${HOST_PORT}:${CONTAINER_PORT}" \`
			`"$IMAGE" \`
			`-m "/hf_home/${MODEL_REL_PATH}" \`
			`--alias "${MODEL_ALIAS}" \`
feat: /plan, /cancel, /continue, /discard + Context 262144 + KV-Cache q4_0 - Neue Befehle: /plan (Planungsmodus, nur PLAN.md), /cancel (Loop-Abbruch), /continue (Resume nach Unterbrechung), /discard (PLAN.md verwerfen) - contextWindow in models.json und llama.cpp-Servern: 131072 → 262144 - KV-Cache: q8_0 → q4_0 (weniger VRAM, passt zu 262k-Kontext auf 2× 3090) - parallel: 2 → 1 beim Coder (stabiler bei großem Kontext) - Optimize-Status mit ASCII-Fortschrittsbalken + Blocker-Preview - cancelRequested-Flag prüft nach jedem Loop-Schritt Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-20 20:02:20 +02:00			`-c 262144 \`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`-n 16384 \`
			`--jinja \`
feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`--chat-template-kwargs '{"enable_thinking":true}' \`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`--no-context-shift \`
feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`--temp 0.6 \`
			`--top-p 0.80 \`
			`--top-k 20 \`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`--min-p 0.01 \`
			`--repeat-penalty 1.05 \`
			`--main-gpu 0 \`
			`--tensor-split 0.5,0.5 \`
			`-ngl 999 \`
			`-fa on \`
			`--kv-unified \`
feat: /plan, /cancel, /continue, /discard + Context 262144 + KV-Cache q4_0 - Neue Befehle: /plan (Planungsmodus, nur PLAN.md), /cancel (Loop-Abbruch), /continue (Resume nach Unterbrechung), /discard (PLAN.md verwerfen) - contextWindow in models.json und llama.cpp-Servern: 131072 → 262144 - KV-Cache: q8_0 → q4_0 (weniger VRAM, passt zu 262k-Kontext auf 2× 3090) - parallel: 2 → 1 beim Coder (stabiler bei großem Kontext) - Optimize-Status mit ASCII-Fortschrittsbalken + Blocker-Preview - cancelRequested-Flag prüft nach jedem Loop-Schritt Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-20 20:02:20 +02:00			`--cache-type-k q4_0 \`
			`--cache-type-v q4_0 \`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`--batch-size 1024 \`
			`--ubatch-size 512 \`
feat: /plan, /cancel, /continue, /discard + Context 262144 + KV-Cache q4_0 - Neue Befehle: /plan (Planungsmodus, nur PLAN.md), /cancel (Loop-Abbruch), /continue (Resume nach Unterbrechung), /discard (PLAN.md verwerfen) - contextWindow in models.json und llama.cpp-Servern: 131072 → 262144 - KV-Cache: q8_0 → q4_0 (weniger VRAM, passt zu 262k-Kontext auf 2× 3090) - parallel: 2 → 1 beim Coder (stabiler bei großem Kontext) - Optimize-Status mit ASCII-Fortschrittsbalken + Blocker-Preview - cancelRequested-Flag prüft nach jedem Loop-Schritt Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-20 20:02:20 +02:00			`--parallel 1 \`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`--cont-batching \`
			`--host 0.0.0.0 \`
			`--port "$CONTAINER_PORT"`

feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`echo "[*] Warte auf Modell-Bereitschaft (Completion-Check, max. 180 s) ..."`
			`MODEL_READY=0`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`for i in {1..90}; do`
feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`HTTP_CODE=$(curl -s -o /dev/null -w "%{http_code}" --max-time 10 \`
			`-X POST "http://localhost:${HOST_PORT}/v1/chat/completions" \`
			`-H "Content-Type: application/json" \`
			`-d "{\"model\":\"${MODEL_ALIAS}\",\"messages\":[{\"role\":\"user\",\"content\":\"ping\"}],\"max_tokens\":1,\"temperature\":0.0,\"stream\":false}")`
			`if [ "$HTTP_CODE" = "200" ]; then MODEL_READY=1; break; fi`
			`echo " [${i}/90] HTTP ${HTTP_CODE:-000} — Modell lädt noch, warte 2s ..."`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`sleep 2`
			`done`

feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`if [ "$MODEL_READY" -ne 1 ]; then`
			`echo "[!] Modell wurde nicht rechtzeitig bereit (kein HTTP 200 auf Completion)." >&2`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`docker logs --tail 200 "$CONTAINER_NAME" \|\| true`
			`exit 1`
			`fi`

feat: automatische SemVer-Versionierung nach SHIP + /version-Command Neuer /version-Command und automatischer Trigger nach SHIP-Verdikt in /optimize: - getCurrentVersion() liest höchsten vX.Y.Z-Tag (git tag -l \| sort -V) - analyzeBumpType() klassifiziert Commits (feat! → major, feat: → minor, fix: → patch) - detectVersionFile() findet package.json / Cargo.toml / pyproject.toml / VERSION - applyVersionBump() schreibt Version in Manifest + chore-Commit - runVersionBump() zeigt ctx.ui.select()-Dialog mit empfohlenem Bump-Typ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com> 2026-05-22 23:49:53 +02:00			`echo "[*] Modell bereit — erster Completion-Request erfolgreich (HTTP 200)."`
			`echo "[*] Server läuft auf http://0.0.0.0:${HOST_PORT}"`
chore: init pi_coder repository Pi agent extension, model config, and LLaMA server startup scripts for the coder/judge workflow (ports 8001/8002). 2026-05-19 18:21:34 +02:00			`echo "[*] Stoppen mit: docker rm -f ${CONTAINER_NAME}"`