diff --git a/BEDIENUNGSANLEITUNG.md b/BEDIENUNGSANLEITUNG.md index 0ab8095..7e755a1 100644 --- a/BEDIENUNGSANLEITUNG.md +++ b/BEDIENUNGSANLEITUNG.md @@ -63,19 +63,54 @@ python chatterbox_cli_v4.py --lang de --text "Guten Morgen! Wie geht es Ihnen he --- -## Die eigene Stimme verwenden +## Die eigene Stimme aufnehmen und verwenden -Wenn du eine Aufnahme deiner Stimme hast (eine WAV-Datei von ca. 10–30 Sekunden), -kann das Programm diese Stimme nachahmen: +Das Programm kann deine Stimme nachahmen — dafür braucht es eine Aufnahme von +dir, 30–60 Sekunden lang. + +### Schritt 1: Stimme aufnehmen + +Öffne ein Terminal und gib folgendes ein: ```bash +arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \ + ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav +``` + +Das Programm nimmt **60 Sekunden** auf und stoppt dann automatisch. +Lies dabei den Trainingstext laut und deutlich vor. + +**Aufnahme abhören** (zur Kontrolle): +```bash +aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav +``` + +### Schritt 2: Stimme nutzen + +```bash +conda activate chatterbox python chatterbox_cli_v4.py --lang de \ - --voice meine_stimme.wav \ + --voice my_voice_deutsch_60s.wav \ --input mein_text.txt ``` -**Tipp:** Eine Aufnahme von 20 Sekunden reicht aus. Am besten in ruhiger Umgebung -und deutlich sprechen. +### Tipps für eine gute Aufnahme + +- Ruhiger Raum, kein Hintergrundlärm, Fenster schließen +- Normaler Abstand zum Mikrofon (ca. 20–40 cm) +- Gleichmäßig und in normalem Tempo sprechen — nicht zu schnell, nicht zu langsam +- Mindestens 30 Sekunden, besser 60 Sekunden + +### Welches Mikrofon wird verwendet? + +Das Programm nutzt automatisch das Standard-Mikrofon von PipeWire/PulseAudio. +Um zu sehen, welches Gerät aktiv ist: + +```bash +pactl list sources short | grep -v monitor +``` + +Das aktive Gerät (`RUNNING`) wird für die Aufnahme verwendet. --- diff --git a/README.md b/README.md index d407124..654e472 100644 --- a/README.md +++ b/README.md @@ -108,6 +108,56 @@ python chatterbox_cli_v4.py --lang de --no-strip-markdown --input text.txt --- +## Voice Cloning — Stimme aufnehmen + +Für Voice Cloning braucht Chatterbox eine WAV-Aufnahme von 10–60 Sekunden in ruhiger Umgebung. + +### Aufnahme-Workflow + +```bash +# 1. Verfügbare Mikrofon-Eingänge anzeigen +pactl list sources short | grep -v monitor + +# 2. Trainingstext in der Datei anzeigen / lesen +cat ~/chatterbox-tts-cli/Trainings_Text.txt + +# 3. Aufnahme starten — 60 Sekunden, stoppt automatisch +# (nutzt das Standard-Eingabegerät von PipeWire/PulseAudio) +arecord -D pulse -f S16_LE -r 44100 -c 1 --duration=60 \ + ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav + +# 4. Aufnahme abhören und prüfen +aplay ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav + +# 5. Als Voice-Profil nutzen +conda activate chatterbox +python chatterbox_cli_v4.py --lang de \ + --voice my_voice_deutsch_60s.wav \ + --text "Testtext mit meiner Stimme." +``` + +### Bestimmtes Mikrofon auswählen (z. B. MOTU M2) + +```bash +# Quellname des M2 herausfinden +pactl list sources short | grep -v monitor + +# Aufnahme explizit vom MOTU M2: +arecord -D pulse \ + --default-device=alsa_input.usb-MOTU_M2_M20000046918-00.analog-stereo \ + -f S16_LE -r 44100 -c 1 --duration=60 \ + ~/chatterbox-tts-cli/my_voice_deutsch_60s.wav +``` + +### Tipps für gute Aufnahmen + +- Ruhige Umgebung, kein Hintergrundlärm +- Normaler Gesprächsabstand zum Mikrofon (20–40 cm) +- Gleichmäßiges, natürliches Sprechtempo +- 30–60 Sekunden sind ideal; 10 Sekunden sind das Minimum + +--- + ## Gemischtsprachige Texte Deutsche Texte enthalten oft englische Fachbegriffe, Markennamen oder Zitate.