fix: Judge-Kontext auf 131072 erhöht (war 65536, zu klein bei langen Optimize-Runden)

2026-05-20 01:20:07 +02:00 · 2026-05-20 01:20:07 +02:00 · 1da712f0b8
commit 1da712f0b8
parent 120f223c9b
2 changed files with 3 additions and 3 deletions
--- a/README.md
+++ b/README.md
@ -153,7 +153,7 @@ und dann neu gestartet — ein laufender Inference-Request wird dabei abgebroche

 | Parameter | Wert | Erklärung / Wirkung |
 |---|---|---|
-| `-c 65536` | 64K Tokens | Mittleres Kontextfenster: reicht für Code-Review des letzten Commits + Konversationshistorie. |
+| `-c 131072` | 128K Tokens | Großes Kontextfenster: nötig bei langen /optimize-Runden, wo der Gesprächsverlauf stark anwächst. |
 | `-n 8192` | 8K Tokens | Reviews müssen nicht länger sein. Spart Inferenz-Zeit. |
 | `--temp 0.1` | — | Sehr niedrige Temperatur: maximale Konsistenz und Reproduzierbarkeit der Urteile. |
 | `--top-p 0.9` | — | Etwas enger als beim Coder — weniger Variation im Urteil gewünscht. |
@ -201,7 +201,7 @@ Bei einer **24-GB-GPU** ist nur ein Server gleichzeitig sinnvoll betreibbar:
 -n 8192    # statt 16384

 # Judge — Kontext reduzieren
-c 32768   # statt 65536
+-c 32768   # statt 131072
 ```

 Bei einer **16-GB-GPU** ist die Modellgröße allein schon grenzwertig.
--- a/start-judge.sh
+++ b/start-judge.sh
@ -31,7 +31,7 @@ docker run -d \
  "$IMAGE" \
    -m "/hf_home/${MODEL_REL_PATH}" \
    --alias "${MODEL_ALIAS}" \
-    -c 65536 \
+    -c 131072 \
    -n 8192 \
    --jinja \
    --no-context-shift \