Dokumentation: Voice-Cloning-Aufnahme mit arecord
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
parent
ff3e370bbd
commit
2a2481c9a0
2 changed files with 91 additions and 6 deletions
|
|
@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## Die eigene Stimme verwenden
|
## Die eigene Stimme aufnehmen und verwenden
|
||||||
|
|
||||||
Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden),
|
Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von
|
||||||
kann das Programm diese Stimme nachahmen:
|
dir, 30–60 Sekunden lang.
|
||||||
|
|
||||||
|
### Schritt 1: Stimme aufnehmen
|
||||||
|
|
||||||
|
Öffne ein Terminal und gib folgendes ein:
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
|
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
|
||||||
|
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
|
||||||
|
```
|
||||||
|
|
||||||
|
Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch.
|
||||||
|
Lies dabei den Trainingstext laut und deutlich vor.
|
||||||
|
|
||||||
|
**Aufnahme abhören** (zur Kontrolle):
|
||||||
|
```bash
|
||||||
|
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
|
||||||
|
```
|
||||||
|
|
||||||
|
### Schritt 2: Stimme nutzen
|
||||||
|
|
||||||
|
```bash
|
||||||
|
conda activate chatterbox
|
||||||
python chatterbox_cli_v4.py --lang de \
|
python chatterbox_cli_v4.py --lang de \
|
||||||
--voice meine_stimme.wav \
|
--voice my_voice_deutsch_60s.wav \
|
||||||
--input mein_text.txt
|
--input mein_text.txt
|
||||||
```
|
```
|
||||||
|
|
||||||
**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
|
### Tipps für eine gute Aufnahme
|
||||||
und deutlich sprechen.
|
|
||||||
|
- Ruhiger Raum, kein Hintergrundlärm, Fenster schließen
|
||||||
|
- Normaler Abstand zum Mikrofon (ca. 20–40 cm)
|
||||||
|
- Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam
|
||||||
|
- Mindestens 30 Sekunden, besser 60 Sekunden
|
||||||
|
|
||||||
|
### Welches Mikrofon wird verwendet?
|
||||||
|
|
||||||
|
Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio.
|
||||||
|
Um zu sehen, welches Gerät aktiv ist:
|
||||||
|
|
||||||
|
```bash
|
||||||
|
pactl list sources short | grep -v monitor
|
||||||
|
```
|
||||||
|
|
||||||
|
Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet.
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
|
|
|
||||||
50
README.md
50
README.md
|
|
@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
|
## Voice Cloning — Stimme aufnehmen
|
||||||
|
|
||||||
|
Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 10–60 Sekunden in ruhiger Umgebung.
|
||||||
|
|
||||||
|
### Aufnahme-Workflow
|
||||||
|
|
||||||
|
```bash
|
||||||
|
# 1. Verfügbare Mikrofon-Eingänge anzeigen
|
||||||
|
pactl list sources short | grep -v monitor
|
||||||
|
|
||||||
|
# 2. Trainingstext in der Datei anzeigen / lesen
|
||||||
|
cat ~/chatterbox-tts-cli/Trainings_Text.txt
|
||||||
|
|
||||||
|
# 3. Aufnahme starten — 60 Sekunden, stoppt automatisch
|
||||||
|
# (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio)
|
||||||
|
arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
|
||||||
|
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
|
||||||
|
|
||||||
|
# 4. Aufnahme abhören und prüfen
|
||||||
|
aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
|
||||||
|
|
||||||
|
# 5. Als Voice-Profil nutzen
|
||||||
|
conda activate chatterbox
|
||||||
|
python chatterbox_cli_v4.py --lang de \
|
||||||
|
--voice my_voice_deutsch_60s.wav \
|
||||||
|
--text "Testtext mit meiner Stimme."
|
||||||
|
```
|
||||||
|
|
||||||
|
### Bestimmtes Mikrofon auswählen (z. B. MOTU M2)
|
||||||
|
|
||||||
|
```bash
|
||||||
|
# Quellname des M2 herausfinden
|
||||||
|
pactl list sources short | grep -v monitor
|
||||||
|
|
||||||
|
# Aufnahme explizit vom MOTU M2:
|
||||||
|
arecord -D pulse \
|
||||||
|
--default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \
|
||||||
|
-f S16_LE -r 44100 -c 1 --duration=60 \
|
||||||
|
~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
|
||||||
|
```
|
||||||
|
|
||||||
|
### Tipps für gute Aufnahmen
|
||||||
|
|
||||||
|
- Ruhige Umgebung, kein Hintergrundlärm
|
||||||
|
- Normaler Gesprächsabstand zum Mikrofon (20–40 cm)
|
||||||
|
- Gleichmäßiges, natürliches Sprechtempo
|
||||||
|
- 30–60 Sekunden sind ideal; 10 Sekunden sind das Minimum
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
## Gemischtsprachige Texte
|
## Gemischtsprachige Texte
|
||||||
|
|
||||||
Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.
|
Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.
|
||||||
|
|
|
||||||
Loading…
Add table
Add a link
Reference in a new issue