From 1da712f0b8c94c3059498d1b01c43438ef051f2e Mon Sep 17 00:00:00 2001 From: dschlueter Date: Wed, 20 May 2026 01:20:07 +0200 Subject: [PATCH] =?UTF-8?q?fix:=20Judge-Kontext=20auf=20131072=20erh=C3=B6?= =?UTF-8?q?ht=20(war=2065536,=20zu=20klein=20bei=20langen=20Optimize-Runde?= =?UTF-8?q?n)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 4 ++-- start-judge.sh | 2 +- 2 files changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index a09553a..f10fa14 100644 --- a/README.md +++ b/README.md @@ -153,7 +153,7 @@ und dann neu gestartet — ein laufender Inference-Request wird dabei abgebroche | Parameter | Wert | Erklärung / Wirkung | |---|---|---| -| `-c 65536` | 64K Tokens | Mittleres Kontextfenster: reicht für Code-Review des letzten Commits + Konversationshistorie. | +| `-c 131072` | 128K Tokens | Großes Kontextfenster: nötig bei langen /optimize-Runden, wo der Gesprächsverlauf stark anwächst. | | `-n 8192` | 8K Tokens | Reviews müssen nicht länger sein. Spart Inferenz-Zeit. | | `--temp 0.1` | — | Sehr niedrige Temperatur: maximale Konsistenz und Reproduzierbarkeit der Urteile. | | `--top-p 0.9` | — | Etwas enger als beim Coder — weniger Variation im Urteil gewünscht. | @@ -201,7 +201,7 @@ Bei einer **24-GB-GPU** ist nur ein Server gleichzeitig sinnvoll betreibbar: -n 8192 # statt 16384 # Judge — Kontext reduzieren --c 32768 # statt 65536 +-c 32768 # statt 131072 ``` Bei einer **16-GB-GPU** ist die Modellgröße allein schon grenzwertig. diff --git a/start-judge.sh b/start-judge.sh index 4d78b15..af20ed8 100755 --- a/start-judge.sh +++ b/start-judge.sh @@ -31,7 +31,7 @@ docker run -d \ "$IMAGE" \ -m "/hf_home/${MODEL_REL_PATH}" \ --alias "${MODEL_ALIAS}" \ - -c 65536 \ + -c 131072 \ -n 8192 \ --jinja \ --no-context-shift \