Dokumentation: Datum-Normalisierung und Normalisierungs-Übersicht ergänzt
- README: Feature-Liste, CLI-Optionen (--no-normalize-*), Tabelle aller Normalisierungsschritte mit Beispielen - BEDIENUNGSANLEITUNG: Datumsformat in "Was das Programm automatisch macht" Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
parent
86b69af1d6
commit
7893c60e53
2 changed files with 27 additions and 4 deletions
24
README.md
24
README.md
|
|
@ -14,7 +14,7 @@ HTTP-Service und als MCP-Server für KI-Assistenten.
|
|||
- **Voice Cloning** — optionale WAV-Referenz für Akzent und Klang
|
||||
- **Mehrsprachig** — Deutsch, Englisch und 20+ weitere Sprachen via `ChatterboxMultilingualTTS`
|
||||
- **Gemischtsprachige Texte** — `[en]...[/en]`-Markierungen für englische Passagen in deutschen Texten
|
||||
- **Deutsche Textnormalisierung** — Abkürzungen (ARD → „Ah Er De"), Uhrzeiten (14:58 → „vierzehn Uhr achtundfünfzig"), Jahreszahlen bis Milliarden, Einheiten (°C, °F, kWh, m², …), Aussprache-Wörterbuch
|
||||
- **Deutsche Textnormalisierung** — Datumsangaben (03.06.2026 → „Dritter Sechster Zwanzigsechsundzwanzig"), Uhrzeiten (14:58 → „vierzehn Uhr achtundfünfzig"), Jahreszahlen bis Milliarden, Einheiten (°C, °F, kWh, m², …), Abkürzungen, Aussprache-Wörterbuch
|
||||
- **Markdown-Bereinigung** — entfernt `**fett**`, `# Überschrift`, Links, Code-Blöcke automatisch vor der Synthese
|
||||
- **HTTP-Service** — FastAPI-Service mit Job-Queue, Stop/Pause/Interrupt, Status-Endpunkt
|
||||
- **MCP-Adapter** — direkte Integration in Claude Code, Claude Desktop und andere MCP-Hosts
|
||||
|
|
@ -97,6 +97,10 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt
|
|||
| `--acronym-mode` | `german` | Akronym-Modus: `german`, `space`, `period_space` |
|
||||
| `--pronunciation-dict` | — | JSON-Datei mit Aussprache-Substitutionen |
|
||||
| `--no-strip-markdown` | — | Markdown-Formatierung nicht entfernen |
|
||||
| `--no-normalize-dates` | — | Datumsangaben nicht in Ordinalform umwandeln |
|
||||
| `--no-normalize-times` | — | Uhrzeiten nicht umwandeln |
|
||||
| `--no-normalize-years` | — | Jahreszahlen nicht umwandeln |
|
||||
| `--no-normalize-units` | — | Einheiten nicht umwandeln |
|
||||
| `--save` | nein | WAV-Datei speichern |
|
||||
| `--output DATEI.wav` | — | Ausgabepfad (impliziert `--save`) |
|
||||
| `--no-play` | — | Nicht live abspielen |
|
||||
|
|
@ -459,6 +463,24 @@ Das eigene Dict wird immer **nach** dem eingebauten angewendet — Überschreibu
|
|||
|
||||
---
|
||||
|
||||
## Textnormalisierung im Überblick
|
||||
|
||||
Die Normalisierungspipeline läuft automatisch vor der TTS-Synthese (nur `--lang de`):
|
||||
|
||||
| Schritt | Beispiel Eingabe | Beispiel Ausgabe |
|
||||
|---------|-----------------|-----------------|
|
||||
| Aussprache-Dict | „Xi Jinping" | „Schi Jinping" |
|
||||
| Einheiten | „25 °C", „100 kWh", „10 m²" | „25 Grad Celsius", „100 Kilowattstunde", „10 Quadratmeter" |
|
||||
| **Datum** | „03.06.2026" | „Dritter Sechster Zwanzigsechsundzwanzig" |
|
||||
| Uhrzeit | „14:58 Uhr" | „vierzehn Uhr achtundfünfzig" |
|
||||
| Jahreszahl | „2026" | „zweitausendsechsundzwanzig" |
|
||||
| Akronyme | „ARD", „CPU" | „Ah Er De", „C P U" |
|
||||
|
||||
Jeder Schritt kann einzeln deaktiviert werden:
|
||||
`--no-normalize-dates`, `--no-normalize-times`, `--no-normalize-years`, `--no-normalize-units`, `--no-spell-acronyms`
|
||||
|
||||
---
|
||||
|
||||
## Bekannte Einschränkungen
|
||||
|
||||
- **Wortbetonung** lässt sich nicht steuern — kein SSML. Abhilfe: Voice-Referenz mit gewünschter Betonung.
|
||||
|
|
|
|||
Loading…
Add table
Add a link
Reference in a new issue