Dokumentation: Voice-Cloning-Aufnahme mit arecord

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
Dieter Schlüter 2026-06-04 00:33:23 +02:00
commit 2a2481c9a0
2 changed files with 91 additions and 6 deletions

View file

@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he
---
## Die eigene Stimme verwenden
## Die eigene Stimme aufnehmen und verwenden
Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 1030 Sekunden),
kann das Programm diese Stimme nachahmen:
Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von
dir, 3060 Sekunden lang.
### Schritt 1: Stimme aufnehmen
Öffne ein Terminal und gib folgendes ein:
```bash
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch.
Lies dabei den Trainingstext laut und deutlich vor.
**Aufnahme abhören** (zur Kontrolle):
```bash
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
### Schritt 2: Stimme nutzen
```bash
conda activate chatterbox
python chatterbox_cli_v4.py --lang de \
--voice meine_stimme.wav \
--voice my_voice_deutsch_60s.wav \
--input mein_text.txt
```
**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
und deutlich sprechen.
### Tipps für eine gute Aufnahme
- Ruhiger Raum, kein Hintergrundlärm, Fenster schließen
- Normaler Abstand zum Mikrofon (ca. 2040 cm)
- Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam
- Mindestens 30 Sekunden, besser 60 Sekunden
### Welches Mikrofon wird verwendet?
Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio.
Um zu sehen, welches Gerät aktiv ist:
```bash
pactl list sources short | grep -v monitor
```
Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet.
---

View file

@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt
---
## Voice Cloning — Stimme aufnehmen
Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 1060 Sekunden in ruhiger Umgebung.
### Aufnahme-Workflow
```bash
# 1. Verfügbare Mikrofon-Eingänge anzeigen
pactl list sources short | grep -v monitor
# 2. Trainingstext in der Datei anzeigen / lesen
cat ~/chatterbox-tts-cli/Trainings_Text.txt
# 3. Aufnahme starten — 60 Sekunden, stoppt automatisch
# (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio)
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
# 4. Aufnahme abhören und prüfen
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
# 5. Als Voice-Profil nutzen
conda activate chatterbox
python chatterbox_cli_v4.py --lang de \
--voice my_voice_deutsch_60s.wav \
--text "Testtext mit meiner Stimme."
```
### Bestimmtes Mikrofon auswählen (z. B. MOTU M2)
```bash
# Quellname des M2 herausfinden
pactl list sources short | grep -v monitor
# Aufnahme explizit vom MOTU M2:
arecord -D pulse \
--default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \
-f S16_LE -r 44100 -c 1 --duration=60 \
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
```
### Tipps für gute Aufnahmen
- Ruhige Umgebung, kein Hintergrundlärm
- Normaler Gesprächsabstand zum Mikrofon (2040 cm)
- Gleichmäßiges, natürliches Sprechtempo
- 3060 Sekunden sind ideal; 10 Sekunden sind das Minimum
---
## Gemischtsprachige Texte
Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.