dschlueter bed29fb1c8 Initial commit: chatterbox TTS CLI v4

2026-05-16 08:56:50 +02:00

4.9 KiB

Raw Blame History

Bedienungsanleitung: Chatterbox TTS-Assistent

Dieses Programm liest Texte laut vor — ähnlich wie ein Vorlesedienst. Es wandelt geschriebenen Text in natürlich klingende Sprache um.

Was das Programm braucht

Einen Computer mit Linux
Eine installierte Conda-Umgebung namens chatterbox
Eine Grafikkarte (GPU) — macht das Programm deutlich schneller

Das Programm starten

Öffne ein Terminal und gib folgende Befehle ein:

conda activate chatterbox
cd ~/Python_Programs/chatterbox

Einen Text vorlesen lassen

Text aus einer Datei vorlesen

python chatterbox_cli_v4.py --lang de --input mein_text.txt

Ersetze mein_text.txt durch den Pfad zu deiner Textdatei. Die Datei muss im Format UTF-8 gespeichert sein (das ist der Standard bei modernen Texteditoren).

Einen kurzen Text direkt eingeben

python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen heute?"

Die eigene Stimme verwenden

Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden), kann das Programm diese Stimme nachahmen:

python chatterbox_cli_v4.py --lang de \
  --voice meine_stimme.wav \
  --input mein_text.txt

Tipp: Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung und deutlich sprechen.

Sprache wählen

Das Programm kann in vielen Sprachen vorlesen. Die Sprache wählt man mit --lang:

Befehl	Sprache
`--lang de`	Deutsch (Standard)
`--lang en`	Englisch
`--lang fr`	Französisch
`--lang es`	Spanisch
`--lang it`	Italienisch

Beispiel auf Englisch:

python chatterbox_cli_v4.py --lang en --text "Good morning, how are you?"

Sprechgeschwindigkeit anpassen

Mit --speed kann man einstellen, wie schnell der Text gesprochen wird.

1.0 = normale Geschwindigkeit (Standard)
0.85 = etwas langsamer — gut für ältere Hörer
0.75 = deutlich langsamer
1.2 = etwas schneller

python chatterbox_cli_v4.py --lang de --speed 0.85 --input mein_text.txt

Hinweis: Die Stimmhöhe bleibt gleich — nur das Tempo ändert sich.

Audio als Datei speichern

Wenn du die Audiodatei behalten möchtest:

python chatterbox_cli_v4.py --lang de --save --input mein_text.txt

Die Datei wird automatisch als mein_text.de.wav gespeichert — im selben Ordner wie die Eingabedatei.

Oder mit eigenem Dateinamen:

python chatterbox_cli_v4.py --lang de --output ausgabe.wav --input mein_text.txt

Nur speichern, nicht abspielen

python chatterbox_cli_v4.py --lang de --no-play --output ausgabe.wav --input mein_text.txt

Aussprache von Eigennamen anpassen

Manche Namen — vor allem aus anderen Sprachen — werden falsch ausgesprochen. Du kannst das mit einer einfachen Textdatei im JSON-Format korrigieren.

Beispiel: Datei aussprache.json anlegen:

{
  "Xi Jinping": "Schi Dschinping",
  "Seoul": "Söul",
  "Macron": "Makron"
}

Dann so aufrufen:

python chatterbox_cli_v4.py --lang de \
  --pronunciation-dict aussprache.json \
  --input nachricht.txt

Typischer Arbeitsablauf

Text in einem Editor schreiben und als .txt-Datei speichern
Terminal öffnen, conda activate chatterbox

Programm aufrufen:

python chatterbox_cli_v4.py --lang de --voice meine_stimme.wav --input text.txt

Das Programm beginnt sofort zu sprechen — Satz für Satz

Was das Programm automatisch macht

Abkürzungen buchstabieren: ARD wird zu „Ah Er De", YMCA zu „Ypsilon Em Tse Ah"
Zusammengesetzte Wörter mit Abkürzung: „US-Präsident" wird zu „U Es Präsident"
Uhrzeiten vorlesen: „14:58" wird zu „vierzehn Uhr achtundfünfzig"
Jahreszahlen aussprechen: „2026" wird zu „zweitausendsechsundzwanzig"
Trennzeilen wie „--- Ende ---" werden stillschweigend übersprungen

Wenn etwas nicht klappt

Kein Ton zu hören:

# Ausgabegerät prüfen
python -c "import sounddevice; print(sounddevice.query_devices())"

Dann --audio-device pulse oder das passende Gerät angeben.

„Modell nicht gefunden": Beim ersten Start wird das Modell heruntergeladen (~2 GB). Sicherstellen, dass eine Internetverbindung besteht.

Programm ist sehr langsam: Ohne GPU dauert die Generierung länger als die Wiedergabe — ein Satz kann 30–60 Sekunden brauchen. Mit GPU (CUDA) dauert es ca. 5–10 Sekunden.

Bekannte Grenzen

Betonung einzelner Wörter lässt sich nicht direkt steuern. Eine Aufnahme der eigenen Stimme mit natürlicher Betonung kann helfen.
Manche Fremdwörter (z. B. chinesische oder arabische Namen) klingen nicht immer perfekt — mit der Aussprache-Datei lässt sich das korrigieren.
Das Programm liest alles vor, was in der Datei steht — also auch Überschriften und Metadaten wie „Schlagzeile:" oder „Stand:".

4.9 KiB Raw Blame History Unescape Escape