200 lines
4.9 KiB
Markdown
200 lines
4.9 KiB
Markdown
|
|
# Bedienungsanleitung: Chatterbox TTS-Assistent
|
|||
|
|
|
|||
|
|
Dieses Programm liest Texte laut vor — ähnlich wie ein Vorlesedienst.
|
|||
|
|
Es wandelt geschriebenen Text in natürlich klingende Sprache um.
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Was das Programm braucht
|
|||
|
|
|
|||
|
|
- Einen Computer mit Linux
|
|||
|
|
- Eine installierte Conda-Umgebung namens `chatterbox`
|
|||
|
|
- Eine Grafikkarte (GPU) — macht das Programm deutlich schneller
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Das Programm starten
|
|||
|
|
|
|||
|
|
Öffne ein Terminal und gib folgende Befehle ein:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
conda activate chatterbox
|
|||
|
|
cd ~/Python_Programs/chatterbox
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Einen Text vorlesen lassen
|
|||
|
|
|
|||
|
|
### Text aus einer Datei vorlesen
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
Ersetze `mein_text.txt` durch den Pfad zu deiner Textdatei.
|
|||
|
|
Die Datei muss im Format **UTF-8** gespeichert sein (das ist der Standard
|
|||
|
|
bei modernen Texteditoren).
|
|||
|
|
|
|||
|
|
### Einen kurzen Text direkt eingeben
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen heute?"
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Die eigene Stimme verwenden
|
|||
|
|
|
|||
|
|
Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden),
|
|||
|
|
kann das Programm diese Stimme nachahmen:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de \
|
|||
|
|
--voice meine_stimme.wav \
|
|||
|
|
--input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
|
|||
|
|
und deutlich sprechen.
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Sprache wählen
|
|||
|
|
|
|||
|
|
Das Programm kann in vielen Sprachen vorlesen. Die Sprache wählt man mit `--lang`:
|
|||
|
|
|
|||
|
|
| Befehl | Sprache |
|
|||
|
|
|--------|---------|
|
|||
|
|
| `--lang de` | Deutsch (Standard) |
|
|||
|
|
| `--lang en` | Englisch |
|
|||
|
|
| `--lang fr` | Französisch |
|
|||
|
|
| `--lang es` | Spanisch |
|
|||
|
|
| `--lang it` | Italienisch |
|
|||
|
|
|
|||
|
|
Beispiel auf Englisch:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang en --text "Good morning, how are you?"
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Sprechgeschwindigkeit anpassen
|
|||
|
|
|
|||
|
|
Mit `--speed` kann man einstellen, wie schnell der Text gesprochen wird.
|
|||
|
|
|
|||
|
|
- `1.0` = normale Geschwindigkeit (Standard)
|
|||
|
|
- `0.85` = etwas langsamer — gut für ältere Hörer
|
|||
|
|
- `0.75` = deutlich langsamer
|
|||
|
|
- `1.2` = etwas schneller
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --speed 0.85 --input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
**Hinweis:** Die Stimmhöhe bleibt gleich — nur das Tempo ändert sich.
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Audio als Datei speichern
|
|||
|
|
|
|||
|
|
Wenn du die Audiodatei behalten möchtest:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --save --input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
Die Datei wird automatisch als `mein_text.de.wav` gespeichert — im selben
|
|||
|
|
Ordner wie die Eingabedatei.
|
|||
|
|
|
|||
|
|
Oder mit eigenem Dateinamen:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --output ausgabe.wav --input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Nur speichern, nicht abspielen
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --no-play --output ausgabe.wav --input mein_text.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Aussprache von Eigennamen anpassen
|
|||
|
|
|
|||
|
|
Manche Namen — vor allem aus anderen Sprachen — werden falsch ausgesprochen.
|
|||
|
|
Du kannst das mit einer einfachen Textdatei im JSON-Format korrigieren.
|
|||
|
|
|
|||
|
|
**Beispiel:** Datei `aussprache.json` anlegen:
|
|||
|
|
|
|||
|
|
```json
|
|||
|
|
{
|
|||
|
|
"Xi Jinping": "Schi Dschinping",
|
|||
|
|
"Seoul": "Söul",
|
|||
|
|
"Macron": "Makron"
|
|||
|
|
}
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
Dann so aufrufen:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de \
|
|||
|
|
--pronunciation-dict aussprache.json \
|
|||
|
|
--input nachricht.txt
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Typischer Arbeitsablauf
|
|||
|
|
|
|||
|
|
1. Text in einem Editor schreiben und als `.txt`-Datei speichern
|
|||
|
|
2. Terminal öffnen, `conda activate chatterbox`
|
|||
|
|
3. Programm aufrufen:
|
|||
|
|
```bash
|
|||
|
|
python chatterbox_cli_v4.py --lang de --voice meine_stimme.wav --input text.txt
|
|||
|
|
```
|
|||
|
|
4. Das Programm beginnt sofort zu sprechen — Satz für Satz
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Was das Programm automatisch macht
|
|||
|
|
|
|||
|
|
- Abkürzungen buchstabieren: ARD wird zu „Ah Er De", YMCA zu „Ypsilon Em Tse Ah"
|
|||
|
|
- Zusammengesetzte Wörter mit Abkürzung: „US-Präsident" wird zu „U Es Präsident"
|
|||
|
|
- Uhrzeiten vorlesen: „14:58" wird zu „vierzehn Uhr achtundfünfzig"
|
|||
|
|
- Jahreszahlen aussprechen: „2026" wird zu „zweitausendsechsundzwanzig"
|
|||
|
|
- Trennzeilen wie „--- Ende ---" werden stillschweigend übersprungen
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Wenn etwas nicht klappt
|
|||
|
|
|
|||
|
|
**Kein Ton zu hören:**
|
|||
|
|
```bash
|
|||
|
|
# Ausgabegerät prüfen
|
|||
|
|
python -c "import sounddevice; print(sounddevice.query_devices())"
|
|||
|
|
```
|
|||
|
|
Dann `--audio-device pulse` oder das passende Gerät angeben.
|
|||
|
|
|
|||
|
|
**„Modell nicht gefunden":**
|
|||
|
|
Beim ersten Start wird das Modell heruntergeladen (~2 GB).
|
|||
|
|
Sicherstellen, dass eine Internetverbindung besteht.
|
|||
|
|
|
|||
|
|
**Programm ist sehr langsam:**
|
|||
|
|
Ohne GPU dauert die Generierung länger als die Wiedergabe — ein Satz
|
|||
|
|
kann 30–60 Sekunden brauchen. Mit GPU (CUDA) dauert es ca. 5–10 Sekunden.
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## Bekannte Grenzen
|
|||
|
|
|
|||
|
|
- **Betonung einzelner Wörter** lässt sich nicht direkt steuern.
|
|||
|
|
Eine Aufnahme der eigenen Stimme mit natürlicher Betonung kann helfen.
|
|||
|
|
- **Manche Fremdwörter** (z. B. chinesische oder arabische Namen) klingen
|
|||
|
|
nicht immer perfekt — mit der Aussprache-Datei lässt sich das korrigieren.
|
|||
|
|
- Das Programm liest alles vor, was in der Datei steht — also auch
|
|||
|
|
Überschriften und Metadaten wie „Schlagzeile:" oder „Stand:".
|