diff --git a/agenten/llama-verifier.ts b/agenten/llama-verifier.ts index e806da7..89e1b75 100644 --- a/agenten/llama-verifier.ts +++ b/agenten/llama-verifier.ts @@ -109,7 +109,7 @@ Confidence: - low: Quellen sehr rar, veraltet oder widersprüchlich WICHTIGE REGELN für "contradicted": -- Nur bei klaren, substanziellen Fehlern verwenden: falsche Person, falsch zugeordnetes Ereignis, Zahl um mehr als 10% abweichend, grundlegend falsche Kausalität +- Nur bei klaren, substanziellen Fehlern verwenden: falsche Person, falsch zugeordnetes Ereignis, Zahl um mehr als 5% abweichend, grundlegend falsche Kausalität - Gerundete oder allgemein akzeptierte Näherungswerte sind "supported" (z.B. "21 Millionen Bitcoin" ist korrekte Rundung für 20.999.999,97 BTC) - Zeitzonendifferenzen bei historischen Ereignissen: "supported" wenn die Angabe im üblichen regionalen/kulturellen Kontext korrekt ist - Technische Präzisierungen zu im Wesentlichen korrekten Aussagen → "mixed", nicht "contradicted" diff --git a/agenten/llama-verify-article.ts b/agenten/llama-verify-article.ts index 431745c..0396680 100644 --- a/agenten/llama-verify-article.ts +++ b/agenten/llama-verify-article.ts @@ -130,7 +130,7 @@ Status-Skala: Confidence: high (eindeutige Primärquellen), medium (begrenzte/sekundäre Quellen), low (sehr unklar) WICHTIGE REGELN für "contradicted": -- Nur bei klar substanziellen Fehlern: falsche Person, Zahl >10% abweichend, falsch zugeordnetes Ereignis +- Nur bei klar substanziellen Fehlern: falsche Person, Zahl >5% abweichend, falsch zugeordnetes Ereignis - Gerundete/allgemein akzeptierte Näherungswerte → "supported" (z.B. "21 Millionen Bitcoin" ist korrekte Rundung) - Zeitzonendifferenzen historischer Ereignisse → "supported" wenn im üblichen regionalen Kontext korrekt - Technische Präzisierungen zu korrekten Aussagen → "mixed", nicht "contradicted" diff --git a/agenten/ollama-verifier.ts b/agenten/ollama-verifier.ts index eb77b81..87baebd 100644 --- a/agenten/ollama-verifier.ts +++ b/agenten/ollama-verifier.ts @@ -110,7 +110,7 @@ Confidence: - low: Quellen sehr rar, veraltet oder widersprüchlich WICHTIGE REGELN für "contradicted": -- Nur bei klaren, substanziellen Fehlern verwenden: falsche Person, falsch zugeordnetes Ereignis, Zahl um mehr als 10% abweichend, grundlegend falsche Kausalität +- Nur bei klaren, substanziellen Fehlern verwenden: falsche Person, falsch zugeordnetes Ereignis, Zahl um mehr als 5% abweichend, grundlegend falsche Kausalität - Gerundete oder allgemein akzeptierte Näherungswerte sind "supported" - Zeitzonendifferenzen bei historischen Ereignissen: "supported" wenn im üblichen Kontext korrekt - Technische Präzisierungen zu im Wesentlichen korrekten Aussagen → "mixed", nicht "contradicted" diff --git a/agenten/ollama-verify-article.ts b/agenten/ollama-verify-article.ts index 09b1885..59506f7 100644 --- a/agenten/ollama-verify-article.ts +++ b/agenten/ollama-verify-article.ts @@ -161,7 +161,7 @@ Status-Skala: Confidence: high (eindeutige Primärquellen), medium (begrenzte/sekundäre Quellen), low (sehr unklar) WICHTIGE REGELN für "contradicted": -- Nur bei klar substanziellen Fehlern: falsche Person, Zahl >10% abweichend, falsch zugeordnetes Ereignis +- Nur bei klar substanziellen Fehlern: falsche Person, Zahl >5% abweichend, falsch zugeordnetes Ereignis - Gerundete/allgemein akzeptierte Näherungswerte → "supported" (z.B. "21 Millionen Bitcoin" ist korrekte Rundung) - Zeitzonendifferenzen historischer Ereignisse → "supported" wenn im üblichen regionalen Kontext korrekt - Technische Präzisierungen zu korrekten Aussagen → "mixed", nicht "contradicted" diff --git a/tests/corpus/case_001/expected.json b/tests/corpus/case_001/expected.json index e16cbad..a4d6c5f 100644 --- a/tests/corpus/case_001/expected.json +++ b/tests/corpus/case_001/expected.json @@ -7,8 +7,8 @@ }, { "text_contains": "Zielwert", - "expected_status": "mixed", - "note": "EZB-Ziel ist 2% (korrekt), aber 2024er Jahresschnitt 2,2% ist kaum 'deutlich über Zielwert'; Perplexity liefert 2025-Daten" + "expected_status": "contradicted", + "note": "EZB-Ziel ist 2% korrekt, aber 'deutlich über Zielwert' ist falsch: 2024er Schnitt war 2,2% (nur 0,2 pp über Ziel, nicht deutlich)" }, { "text_contains": "Euro als gesetzliches Zahlungsmittel seit 2002", diff --git a/tests/corpus/case_003/expected.json b/tests/corpus/case_003/expected.json index 1f1c11f..b5a40b2 100644 --- a/tests/corpus/case_003/expected.json +++ b/tests/corpus/case_003/expected.json @@ -11,7 +11,7 @@ "note": "Korrekte Missionsbezeichnung" }, { - "text_contains": "Collins im Mondorbit", + "text_contains": "Collins verblieb im Mondorbit", "expected_status": "supported", "note": "Collins blieb tatsächlich im Mondorbit — korrekter Fakt" } diff --git a/tests/corpus/case_004/expected.json b/tests/corpus/case_004/expected.json index 12e522f..77ff7fe 100644 --- a/tests/corpus/case_004/expected.json +++ b/tests/corpus/case_004/expected.json @@ -11,7 +11,7 @@ "note": "Deutschland hat 16 Bundesländer — korrekter Fakt" }, { - "text_contains": "drei Stadtstaaten", + "text_contains": "Stadtstaaten", "expected_status": "supported", "note": "Berlin, Hamburg, Bremen sind die drei Stadtstaaten — korrekter Fakt" }, diff --git a/tests/corpus/case_007/expected.json b/tests/corpus/case_007/expected.json index d7b66a4..5c09a5c 100644 --- a/tests/corpus/case_007/expected.json +++ b/tests/corpus/case_007/expected.json @@ -7,8 +7,8 @@ }, { "text_contains": "95 Prozent", - "expected_status": "supported", - "note": "Studien zeigten ~95% Wirksamkeit (Phase-3-Studie) — korrekter Fakt" + "expected_status": "contradicted", + "note": "95% Wirksamkeit gilt für symptomatische Infektionen, nicht für 'schwere Verläufe' wie im Text behauptet" }, { "text_contains": "Mainz", diff --git a/tests/corpus/case_008/expected.json b/tests/corpus/case_008/expected.json index 409022b..7336808 100644 --- a/tests/corpus/case_008/expected.json +++ b/tests/corpus/case_008/expected.json @@ -12,8 +12,8 @@ }, { "text_contains": "Christian Lindner", - "expected_status": "mixed", - "note": "Lindner war Finanzminister 2024 (korrekt), aber Perplexity verwirrt 2024/2025 Haushaltsjahr" + "expected_status": "supported", + "note": "Christian Lindner war bis Nov 2024 Bundesfinanzminister und legte den Haushalt vor — korrekter Fakt" } ] } diff --git a/tests/run_corpus.sh b/tests/run_corpus.sh index 1ef1076..a1a198c 100755 --- a/tests/run_corpus.sh +++ b/tests/run_corpus.sh @@ -109,9 +109,10 @@ for case_name in "${CASES[@]}"; do result_file="${RESULTS_DIR}/${case_name}.json" t_start=$(date +%s%3N) - # verify-article aufrufen + # verify-article aufrufen (--job-id cacht claims.json zwischen Läufen) if npx tsx "${AGENT}" \ --mode "${MODE}" \ + --job-id "corpus-${case_name}" \ --json \ ${EXTRA_FLAGS} \ "$(cat "${input_file}")" \