chatterbox-tts-cli/BEDIENUNGSANLEITUNG.md

4.9 KiB
Raw Blame History

Bedienungsanleitung: Chatterbox TTS-Assistent

Dieses Programm liest Texte laut vor — ähnlich wie ein Vorlesedienst. Es wandelt geschriebenen Text in natürlich klingende Sprache um.


Was das Programm braucht

  • Einen Computer mit Linux
  • Eine installierte Conda-Umgebung namens chatterbox
  • Eine Grafikkarte (GPU) — macht das Programm deutlich schneller

Das Programm starten

Öffne ein Terminal und gib folgende Befehle ein:

conda activate chatterbox
cd ~/Python_Programs/chatterbox

Einen Text vorlesen lassen

Text aus einer Datei vorlesen

python chatterbox_cli_v4.py --lang de --input mein_text.txt

Ersetze mein_text.txt durch den Pfad zu deiner Textdatei. Die Datei muss im Format UTF-8 gespeichert sein (das ist der Standard bei modernen Texteditoren).

Einen kurzen Text direkt eingeben

python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen heute?"

Die eigene Stimme verwenden

Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 1030 Sekunden), kann das Programm diese Stimme nachahmen:

python chatterbox_cli_v4.py --lang de \
  --voice meine_stimme.wav \
  --input mein_text.txt

Tipp: Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung und deutlich sprechen.


Sprache wählen

Das Programm kann in vielen Sprachen vorlesen. Die Sprache wählt man mit --lang:

Befehl Sprache
--lang de Deutsch (Standard)
--lang en Englisch
--lang fr Französisch
--lang es Spanisch
--lang it Italienisch

Beispiel auf Englisch:

python chatterbox_cli_v4.py --lang en --text "Good morning, how are you?"

Sprechgeschwindigkeit anpassen

Mit --speed kann man einstellen, wie schnell der Text gesprochen wird.

  • 1.0 = normale Geschwindigkeit (Standard)
  • 0.85 = etwas langsamer — gut für ältere Hörer
  • 0.75 = deutlich langsamer
  • 1.2 = etwas schneller
python chatterbox_cli_v4.py --lang de --speed 0.85 --input mein_text.txt

Hinweis: Die Stimmhöhe bleibt gleich — nur das Tempo ändert sich.


Audio als Datei speichern

Wenn du die Audiodatei behalten möchtest:

python chatterbox_cli_v4.py --lang de --save --input mein_text.txt

Die Datei wird automatisch als mein_text.de.wav gespeichert — im selben Ordner wie die Eingabedatei.

Oder mit eigenem Dateinamen:

python chatterbox_cli_v4.py --lang de --output ausgabe.wav --input mein_text.txt

Nur speichern, nicht abspielen

python chatterbox_cli_v4.py --lang de --no-play --output ausgabe.wav --input mein_text.txt

Aussprache von Eigennamen anpassen

Manche Namen — vor allem aus anderen Sprachen — werden falsch ausgesprochen. Du kannst das mit einer einfachen Textdatei im JSON-Format korrigieren.

Beispiel: Datei aussprache.json anlegen:

{
  "Xi Jinping": "Schi Dschinping",
  "Seoul": "Söul",
  "Macron": "Makron"
}

Dann so aufrufen:

python chatterbox_cli_v4.py --lang de \
  --pronunciation-dict aussprache.json \
  --input nachricht.txt

Typischer Arbeitsablauf

  1. Text in einem Editor schreiben und als .txt-Datei speichern
  2. Terminal öffnen, conda activate chatterbox
  3. Programm aufrufen:
    python chatterbox_cli_v4.py --lang de --voice meine_stimme.wav --input text.txt
    
  4. Das Programm beginnt sofort zu sprechen — Satz für Satz

Was das Programm automatisch macht

  • Abkürzungen buchstabieren: ARD wird zu „Ah Er De", YMCA zu „Ypsilon Em Tse Ah"
  • Zusammengesetzte Wörter mit Abkürzung: „US-Präsident" wird zu „U Es Präsident"
  • Uhrzeiten vorlesen: „14:58" wird zu „vierzehn Uhr achtundfünfzig"
  • Jahreszahlen aussprechen: „2026" wird zu „zweitausendsechsundzwanzig"
  • Trennzeilen wie „--- Ende ---" werden stillschweigend übersprungen

Wenn etwas nicht klappt

Kein Ton zu hören:

# Ausgabegerät prüfen
python -c "import sounddevice; print(sounddevice.query_devices())"

Dann --audio-device pulse oder das passende Gerät angeben.

„Modell nicht gefunden": Beim ersten Start wird das Modell heruntergeladen (~2 GB). Sicherstellen, dass eine Internetverbindung besteht.

Programm ist sehr langsam: Ohne GPU dauert die Generierung länger als die Wiedergabe — ein Satz kann 3060 Sekunden brauchen. Mit GPU (CUDA) dauert es ca. 510 Sekunden.


Bekannte Grenzen

  • Betonung einzelner Wörter lässt sich nicht direkt steuern. Eine Aufnahme der eigenen Stimme mit natürlicher Betonung kann helfen.
  • Manche Fremdwörter (z. B. chinesische oder arabische Namen) klingen nicht immer perfekt — mit der Aussprache-Datei lässt sich das korrigieren.
  • Das Programm liest alles vor, was in der Datei steht — also auch Überschriften und Metadaten wie „Schlagzeile:" oder „Stand:".