Dokumentation: Voice-Cloning-Aufnahme mit arecord

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
Dieter Schlüter 2026-06-04 00:33:23 +02:00
commit 2a2481c9a0
2 changed files with 91 additions and 6 deletions

View file

@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt
---
## Voice Cloning — Stimme aufnehmen
Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 1060 Sekunden in ruhiger Umgebung.
### Aufnahme-Workflow
```bash
# 1. Verfügbare Mikrofon-Eingänge anzeigen
pactl list sources short | grep -v monitor
# 2. Trainingstext in der Datei anzeigen / lesen
cat ~/chatterbox-tts-cli/Trainings_Text.txt
# 3. Aufnahme starten — 60 Sekunden, stoppt automatisch
# (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio)
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
# 4. Aufnahme abhören und prüfen
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
# 5. Als Voice-Profil nutzen
conda activate chatterbox
python chatterbox_cli_v4.py --lang de \
--voice my_voice_deutsch_60s.wav \
--text "Testtext mit meiner Stimme."
```
### Bestimmtes Mikrofon auswählen (z. B. MOTU M2)
```bash
# Quellname des M2 herausfinden
pactl list sources short | grep -v monitor
# Aufnahme explizit vom MOTU M2:
arecord -D pulse \
--default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \
-f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
### Tipps für gute Aufnahmen
- Ruhige Umgebung, kein Hintergrundlärm
- Normaler Gesprächsabstand zum Mikrofon (2040 cm)
- Gleichmäßiges, natürliches Sprechtempo
- 3060 Sekunden sind ideal; 10 Sekunden sind das Minimum
---
## Gemischtsprachige Texte
Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.