Dokumentation: Voice-Cloning-Aufnahme mit arecord

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-06-04 00:33:23 +02:00 · 2026-06-04 00:33:23 +02:00 · 2a2481c9a0
commit 2a2481c9a0
parent ff3e370bbd
2 changed files with 91 additions and 6 deletions
--- a/BEDIENUNGSANLEITUNG.md
+++ b/BEDIENUNGSANLEITUNG.md
@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he

 ---

-## Die eigene Stimme verwenden
+## Die eigene Stimme aufnehmen und verwenden

-Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden),
-kann das Programm diese Stimme nachahmen:
+Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von
+dir, 30–60 Sekunden lang.
+
+### Schritt 1: Stimme aufnehmen
+
+Öffne ein Terminal und gib folgendes ein:

 ```bash
+arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
+  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
+```
+
+Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch.
+Lies dabei den Trainingstext laut und deutlich vor.
+
+**Aufnahme abhören** (zur Kontrolle):
+```bash
+aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
+```
+
+### Schritt 2: Stimme nutzen
+
+```bash
+conda activate chatterbox
 python chatterbox_cli_v4.py --lang de \
-  --voice meine_stimme.wav \
+  --voice my_voice_deutsch_60s.wav \
  --input mein_text.txt
 ```

-**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung
-und deutlich sprechen.
+### Tipps für eine gute Aufnahme
+
+- Ruhiger Raum, kein Hintergrundlärm, Fenster schließen
+- Normaler Abstand zum Mikrofon (ca. 20–40 cm)
+- Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam
+- Mindestens 30 Sekunden, besser 60 Sekunden
+
+### Welches Mikrofon wird verwendet?
+
+Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio.
+Um zu sehen, welches Gerät aktiv ist:
+
+```bash
+pactl list sources short | grep -v monitor
+```
+
+Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet.

 ---

--- a/README.md
+++ b/README.md
@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt

 ---

+## Voice Cloning — Stimme aufnehmen
+
+Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 10–60 Sekunden in ruhiger Umgebung.
+
+### Aufnahme-Workflow
+
+```bash
+# 1. Verfügbare Mikrofon-Eingänge anzeigen
+pactl list sources short | grep -v monitor
+
+# 2. Trainingstext in der Datei anzeigen / lesen
+cat ~/chatterbox-tts-cli/Trainings_Text.txt
+
+# 3. Aufnahme starten — 60 Sekunden, stoppt automatisch
+#    (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio)
+arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \
+  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
+
+# 4. Aufnahme abhören und prüfen
+aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
+
+# 5. Als Voice-Profil nutzen
+conda activate chatterbox
+python chatterbox_cli_v4.py --lang de \
+  --voice my_voice_deutsch_60s.wav \
+  --text "Testtext mit meiner Stimme."
+```
+
+### Bestimmtes Mikrofon auswählen (z. B. MOTU M2)
+
+```bash
+# Quellname des M2 herausfinden
+pactl list sources short | grep -v monitor
+
+# Aufnahme explizit vom MOTU M2:
+arecord -D pulse \
+  --default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \
+  -f S16_LE -r 44100 -c 1 --duration=60 \
+  ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav
+```
+
+### Tipps für gute Aufnahmen
+
+- Ruhige Umgebung, kein Hintergrundlärm
+- Normaler Gesprächsabstand zum Mikrofon (20–40 cm)
+- Gleichmäßiges, natürliches Sprechtempo
+- 30–60 Sekunden sind ideal; 10 Sekunden sind das Minimum
+
+---
+
 ## Gemischtsprachige Texte

 Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.