Dokumentation: Voice-Cloning-Aufnahme mit arecord

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
Dieter Schlüter 2026-06-04 00:33:23 +02:00
commit 2a2481c9a0
2 changed files with 91 additions and 6 deletions

View file

@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he
---
## Die eigene Stimme verwenden
## Die eigene Stimme aufnehmen und verwenden
Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 1030 Sekunden),
kann das Programm diese Stimme nachahmen:
Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von
dir, 3060 Sekunden lang.
### Schritt 1: Stimme aufnehmen
Öffne ein Terminal und gib folgendes ein:
```bash
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch.
Lies dabei den Trainingstext laut und deutlich vor.
**Aufnahme abhören** (zur Kontrolle):
```bash
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
### Schritt 2: Stimme nutzen
```bash
conda activate chatterbox
python chatterbox_cli_v4.py --lang de \
--voice meine_stimme.wav \
--voice my_voice_deutsch_60s.wav \
--input mein_text.txt
```
**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
und deutlich sprechen.
### Tipps für eine gute Aufnahme
- Ruhiger Raum, kein Hintergrundlärm, Fenster schließen
- Normaler Abstand zum Mikrofon (ca. 2040 cm)
- Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam
- Mindestens 30 Sekunden, besser 60 Sekunden
### Welches Mikrofon wird verwendet?
Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio.
Um zu sehen, welches Gerät aktiv ist:
```bash
pactl list sources short | grep -v monitor
```
Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet.
---