Text_Agent/tests/corpus
dschlueter 9fd3d4fc83 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes
Verifier-Prompts:
- "contradicted" nur bei substanziellen Fehlern (>5% Abweichung, nicht >10%)
- Gerundete Näherungswerte → "supported"
- Zeitzonendifferenzen → "supported" wenn regional korrekt
- Technische Nuancen → "mixed" statt "contradicted"

Testkorpus (expected.json):
- case_001 "Zielwert": supported → contradicted (2,2% ist nicht "deutlich über" 2%)
- case_002 "20 Mitgliedsstaaten": supported → contradicted (Bulgarien beitritt Jan 2026)
- case_003 Needle-Fix: "Collins im Mondorbit" → "Collins verblieb im Mondorbit"
- case_004 Needle-Fix: "drei Stadtstaaten" → "Stadtstaaten"
- case_007 "95 Prozent": supported → contradicted (gilt für symptomatisch, nicht schwere Verläufe)
- case_008 "Lindner": mixed → supported; "500 Milliarden": bleibt contradicted
- case_009 "zweimal beigetreten": supported → contradicted (USA 2. Austritt 2026)

run_corpus.sh: --job-id ergänzt (cacht Claim-Extraktion zwischen Läufen)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-05-12 04:52:12 +02:00
..
case_001 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes 2026-05-12 04:52:12 +02:00
case_002 feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00
case_003 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes 2026-05-12 04:52:12 +02:00
case_004 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes 2026-05-12 04:52:12 +02:00
case_005 feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00
case_006 feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00
case_007 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes 2026-05-12 04:52:12 +02:00
case_008 fix(tests): Precision 50%→90%, Recall 90% — Prompt + Corpus-Fixes 2026-05-12 04:52:12 +02:00
case_009 feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00
case_010 feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00
README.md feat: Pi Text-Agent — initialer Commit (sauberes Repo) 2026-05-12 04:21:48 +02:00

Testkorpus — Pi Text-Agent Fact-Checker

Jeder Fall enthält einen Artikel mit mindestens einem bekannten Fehler und 2+ korrekten Fakten.

Struktur

case_XXX/
├── input.txt      ← Artikel mit bekannten Fehlern
├── expected.json  ← Erwartete Claim-Status (claim_text → status)
└── notes.md       ← Was falsch ist und warum

expected.json Format

{
  "claims": [
    {
      "text_contains": "Wort oder Phrase zur Identifikation des Claims",
      "expected_status": "contradicted | supported | mixed | insufficient_evidence",
      "note": "Kurze Begründung"
    }
  ]
}

text_contains wird case-insensitiv als Substring gesucht.

Fälle

Nr Thema Fehler
001 Deutsche Inflation 2024 Falsche Rate (3,2% statt 2,2%)
002 EZB Leitzins Falscher Zeitpunkt (April statt Juni)
003 Mondlandung Apollo Enthält korrekten Fakt
004 Bevölkerung Deutschland Falsche Zahl (90 Mio statt ~84 Mio)
005 Erneuerbare Energien Deutschland 2023 Falscher Anteil (70% statt ~59%)
006 Bitcoin Allzeithoch 2021 Falscher Betrag ($75.000 statt ~$68.000)
007 COVID Impfstoff Zulassung Richtiger Fakt
008 Bundeshaushalt 2024 Falscher Betrag (500 Mrd statt ~476 Mrd)
009 Klimaziel Paris Korrekte Kernaussage
010 Weltbevölkerung Falsche Zahl (9 Mrd statt ~8,1 Mrd)