4.9 KiB
Bedienungsanleitung: Chatterbox TTS-Assistent
Dieses Programm liest Texte laut vor — ähnlich wie ein Vorlesedienst. Es wandelt geschriebenen Text in natürlich klingende Sprache um.
Was das Programm braucht
- Einen Computer mit Linux
- Eine installierte Conda-Umgebung namens
chatterbox - Eine Grafikkarte (GPU) — macht das Programm deutlich schneller
Das Programm starten
Öffne ein Terminal und gib folgende Befehle ein:
conda activate chatterbox
cd ~/Python_Programs/chatterbox
Einen Text vorlesen lassen
Text aus einer Datei vorlesen
python chatterbox_cli_v4.py --lang de --input mein_text.txt
Ersetze mein_text.txt durch den Pfad zu deiner Textdatei.
Die Datei muss im Format UTF-8 gespeichert sein (das ist der Standard
bei modernen Texteditoren).
Einen kurzen Text direkt eingeben
python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen heute?"
Die eigene Stimme verwenden
Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden), kann das Programm diese Stimme nachahmen:
python chatterbox_cli_v4.py --lang de \
--voice meine_stimme.wav \
--input mein_text.txt
Tipp: Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung und deutlich sprechen.
Sprache wählen
Das Programm kann in vielen Sprachen vorlesen. Die Sprache wählt man mit --lang:
| Befehl | Sprache |
|---|---|
--lang de |
Deutsch (Standard) |
--lang en |
Englisch |
--lang fr |
Französisch |
--lang es |
Spanisch |
--lang it |
Italienisch |
Beispiel auf Englisch:
python chatterbox_cli_v4.py --lang en --text "Good morning, how are you?"
Sprechgeschwindigkeit anpassen
Mit --speed kann man einstellen, wie schnell der Text gesprochen wird.
1.0= normale Geschwindigkeit (Standard)0.85= etwas langsamer — gut für ältere Hörer0.75= deutlich langsamer1.2= etwas schneller
python chatterbox_cli_v4.py --lang de --speed 0.85 --input mein_text.txt
Hinweis: Die Stimmhöhe bleibt gleich — nur das Tempo ändert sich.
Audio als Datei speichern
Wenn du die Audiodatei behalten möchtest:
python chatterbox_cli_v4.py --lang de --save --input mein_text.txt
Die Datei wird automatisch als mein_text.de.wav gespeichert — im selben
Ordner wie die Eingabedatei.
Oder mit eigenem Dateinamen:
python chatterbox_cli_v4.py --lang de --output ausgabe.wav --input mein_text.txt
Nur speichern, nicht abspielen
python chatterbox_cli_v4.py --lang de --no-play --output ausgabe.wav --input mein_text.txt
Aussprache von Eigennamen anpassen
Manche Namen — vor allem aus anderen Sprachen — werden falsch ausgesprochen. Du kannst das mit einer einfachen Textdatei im JSON-Format korrigieren.
Beispiel: Datei aussprache.json anlegen:
{
"Xi Jinping": "Schi Dschinping",
"Seoul": "Söul",
"Macron": "Makron"
}
Dann so aufrufen:
python chatterbox_cli_v4.py --lang de \
--pronunciation-dict aussprache.json \
--input nachricht.txt
Typischer Arbeitsablauf
- Text in einem Editor schreiben und als
.txt-Datei speichern - Terminal öffnen,
conda activate chatterbox - Programm aufrufen:
python chatterbox_cli_v4.py --lang de --voice meine_stimme.wav --input text.txt - Das Programm beginnt sofort zu sprechen — Satz für Satz
Was das Programm automatisch macht
- Abkürzungen buchstabieren: ARD wird zu „Ah Er De", YMCA zu „Ypsilon Em Tse Ah"
- Zusammengesetzte Wörter mit Abkürzung: „US-Präsident" wird zu „U Es Präsident"
- Uhrzeiten vorlesen: „14:58" wird zu „vierzehn Uhr achtundfünfzig"
- Jahreszahlen aussprechen: „2026" wird zu „zweitausendsechsundzwanzig"
- Trennzeilen wie „--- Ende ---" werden stillschweigend übersprungen
Wenn etwas nicht klappt
Kein Ton zu hören:
# Ausgabegerät prüfen
python -c "import sounddevice; print(sounddevice.query_devices())"
Dann --audio-device pulse oder das passende Gerät angeben.
„Modell nicht gefunden": Beim ersten Start wird das Modell heruntergeladen (~2 GB). Sicherstellen, dass eine Internetverbindung besteht.
Programm ist sehr langsam: Ohne GPU dauert die Generierung länger als die Wiedergabe — ein Satz kann 30–60 Sekunden brauchen. Mit GPU (CUDA) dauert es ca. 5–10 Sekunden.
Bekannte Grenzen
- Betonung einzelner Wörter lässt sich nicht direkt steuern. Eine Aufnahme der eigenen Stimme mit natürlicher Betonung kann helfen.
- Manche Fremdwörter (z. B. chinesische oder arabische Namen) klingen nicht immer perfekt — mit der Aussprache-Datei lässt sich das korrigieren.
- Das Programm liest alles vor, was in der Datei steht — also auch Überschriften und Metadaten wie „Schlagzeile:" oder „Stand:".