Dokumentation: Voice-Cloning-Aufnahme mit arecord

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-06-04 00:33:23 +02:00 · 2026-06-04 00:33:23 +02:00 · 2a2481c9a0
commit 2a2481c9a0
parent ff3e370bbd
2 changed files with 91 additions and 6 deletions
--- a/BEDIENUNGSANLEITUNG.md
+++ b/BEDIENUNGSANLEITUNG.md
@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he
 ---
-## Die eigene Stimme verwenden
+## Die eigene Stimme aufnehmen und verwenden
-Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden),
+Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von
-kann das Programm diese Stimme nachahmen:
+dir, 30–60 Sekunden lang.
 ### Schritt 1: Stimme aufnehmen
 Öffne ein Terminal und gib folgendes ein:
 ```bash
 arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
 ```
 Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch.
 Lies dabei den Trainingstext laut und deutlich vor.
 **Aufnahme abhören** (zur Kontrolle):
 ```bash
 aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
 ```
 ### Schritt 2: Stimme nutzen
 ```bash
 conda activate chatterbox
 python chatterbox_cli_v4.py --lang de \
-  --voice meine_stimme.wav \
+  --voice my_voice_deutsch_60s.wav \
  --input mein_text.txt
 ```
-**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
+### Tipps für eine gute Aufnahme
-und deutlich sprechen.
+
 - Ruhiger Raum, kein Hintergrundlärm, Fenster schließen
 - Normaler Abstand zum Mikrofon (ca. 20–40 cm)
 - Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam
 - Mindestens 30 Sekunden, besser 60 Sekunden
 ### Welches Mikrofon wird verwendet?
 Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio.
 Um zu sehen, welches Gerät aktiv ist:
 ```bash
 pactl list sources short | grep -v monitor
 ```
 Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet.
 ---
--- a/README.md
+++ b/README.md
@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt
 ---
 ## Voice Cloning — Stimme aufnehmen
 Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 10–60 Sekunden in ruhiger Umgebung.
 ### Aufnahme-Workflow
 ```bash
 # 1. Verfügbare Mikrofon-Eingänge anzeigen
 pactl list sources short | grep -v monitor
 # 2. Trainingstext in der Datei anzeigen / lesen
 cat ~/chatterbox-tts-cli/Trainings_Text.txt
 # 3. Aufnahme starten — 60 Sekunden, stoppt automatisch
 #    (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio)
 arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
 # 4. Aufnahme abhören und prüfen
 aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
 # 5. Als Voice-Profil nutzen
 conda activate chatterbox
 python chatterbox_cli_v4.py --lang de \
  --voice my_voice_deutsch_60s.wav \
  --text "Testtext mit meiner Stimme."
 ```
 ### Bestimmtes Mikrofon auswählen (z. B. MOTU M2)
 ```bash
 # Quellname des M2 herausfinden
 pactl list sources short | grep -v monitor
 # Aufnahme explizit vom MOTU M2:
 arecord -D pulse \
  --default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \
  -f S16_LE -r 44100 -c 1 --duration=60 \
  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
 ```
 ### Tipps für gute Aufnahmen
 - Ruhige Umgebung, kein Hintergrundlärm
 - Normaler Gesprächsabstand zum Mikrofon (20–40 cm)
 - Gleichmäßiges, natürliches Sprechtempo
 - 30–60 Sekunden sind ideal; 10 Sekunden sind das Minimum
 ---
 ## Gemischtsprachige Texte
 Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.