From 1da712f0b8c94c3059498d1b01c43438ef051f2e Mon Sep 17 00:00:00 2001
From: dschlueter <dschlueter@kitux.de>
Date: Wed, 20 May 2026 01:20:07 +0200
Subject: [PATCH] =?UTF-8?q?fix:=20Judge-Kontext=20auf=20131072=20erh=C3=B6?=
 =?UTF-8?q?ht=20(war=2065536,=20zu=20klein=20bei=20langen=20Optimize-Runde?=
 =?UTF-8?q?n)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 README.md      | 4 ++--
 start-judge.sh | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/README.md b/README.md
index a09553a..f10fa14 100644
--- a/README.md
+++ b/README.md
@@ -153,7 +153,7 @@ und dann neu gestartet — ein laufender Inference-Request wird dabei abgebroche
 
 | Parameter | Wert | Erklärung / Wirkung |
 |---|---|---|
-| `-c 65536` | 64K Tokens | Mittleres Kontextfenster: reicht für Code-Review des letzten Commits + Konversationshistorie. |
+| `-c 131072` | 128K Tokens | Großes Kontextfenster: nötig bei langen /optimize-Runden, wo der Gesprächsverlauf stark anwächst. |
 | `-n 8192` | 8K Tokens | Reviews müssen nicht länger sein. Spart Inferenz-Zeit. |
 | `--temp 0.1` | — | Sehr niedrige Temperatur: maximale Konsistenz und Reproduzierbarkeit der Urteile. |
 | `--top-p 0.9` | — | Etwas enger als beim Coder — weniger Variation im Urteil gewünscht. |
@@ -201,7 +201,7 @@ Bei einer **24-GB-GPU** ist nur ein Server gleichzeitig sinnvoll betreibbar:
 -n 8192    # statt 16384
 
 # Judge — Kontext reduzieren
--c 32768   # statt 65536
+-c 32768   # statt 131072
 ```
 
 Bei einer **16-GB-GPU** ist die Modellgröße allein schon grenzwertig.
diff --git a/start-judge.sh b/start-judge.sh
index 4d78b15..af20ed8 100755
--- a/start-judge.sh
+++ b/start-judge.sh
@@ -31,7 +31,7 @@ docker run -d \
   "$IMAGE" \
     -m "/hf_home/${MODEL_REL_PATH}" \
     --alias "${MODEL_ALIAS}" \
-    -c 65536 \
+    -c 131072 \
     -n 8192 \
     --jinja \
     --no-context-shift \