Dies ist eine alte Version des Dokuments!
Inhaltsverzeichnis
Thorsten-Voice - ein Stimmme für dich
Thorsten-Voice ist deutsche künstliche Stimme die Offline, ohne Cloudanbindung verwendet wird.
Merkmale von Thorsten-Voice:
- für Bildungseinrichtungen und Inklusion
- IT / KI Projekte in Schulen
- Content-Creator (Youtube, TikTok, Instagram, Twitch, …)
- Öffentliche und soziale Organisationen (Museen, Kulturvereine,
- kommunale Behörden)
- Software Projekte (Open-Source oder Kommerziell)
- nterstützung beim Lesen (Screenreader)
- kostenlose Computerstimme
- Funktioniert ohne Internetverbindung
- Keine rechtlichen Einschränkungen
Installation auf Ubuntu 24.04 LTS:
Als erstes installiere das Paket für ein virtuelles Python-ENV nach. Das musst du nicht tun, hat aber den Vorteil das dein System so von den zusätzlichen Pythonlibs nicht beeinträchtigt werden kann.
apt install python3-venv
VENV aktivieren und betreten:
python3 -m venv /pfad_zu_einem_Ordner
z.B.:
python3 -m venv /root/thorsten-voice source /root/thorsten-voice/bin/activate
Nun installierst du die Software inkl. Webschnittstelle:
pip install piper-tts[http] piper-tts
Als letzten Schritt muss das gewünschte Modell noch herunter geladen werden. Hierfür restellen wir einen Unterordner und laden dort die beiden Modelle herunter:
mkdir /root/thorsten-models cd /root/thorsten-models wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx.json wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten/high/de_DE-thorsten-high.onnx wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten/high/de_DE-thorsten-high.onnx.json
Wir haben nun zwei Modelle zur Verfügung:
- Neutrale Sprachausgabe
- Emotionale Sprachausgabe
Benutzung direkt auf dem Gerät wo Thorsten installiert wurde
Grundsätzlich wurde Thorsten-Voice für die Generierung von Wave-Dateien konzipiert. Dies kann folgender Maßen auf dem Gerät erfolgen:
echo "Hallo das ist ein Test." | piper -m /root/thorsten-models/de_DE-thorsten-high.onnx -f ausgabe-neutral.wav
Damit wird also ein Wav-File generiert das verwendet werden kann.
Oder das ganze mit einer Emotion verbunden:
echo "Hallo das ist ein Test." | piper -m /root/thorsten-models/de_DE-thorsten_emotional-medium.onnx -f ausgabe-emotional.wav --speaker 1
Hier noch die Übersicht der verschiedenen emulierbaren Emotionen:
Benutzung auf einem externen Gerät z.B einem Desktop Rechner
Hierfür starten wir den Webserver (HTTP API) in dem virtuellen Python ENV. Nicht vergessen in das ENV einzusteigen:
source thorsten-voice/bin/activate
Webserver starten → auf Port 5000:
python3 -m piper.http_server -m /root/thorsten-models/de_DE-thorsten-high.onnx
Nun kann vom Client aus ein Wav generiert werden:
curl -X POST -H 'Content-Type: application/json' -d '{ "text": "Das ist ein Test." }' -o test.wav <hostname von deinem Server>:5000
Um direkt zu sprechen ohne eine Wav zu generieren, ist ein Ausgabeprogramm erforderlich. Paplay eignet sich hervoragend dafür. Dies ist im Standard von Ubuntu nicht enhalten und muss nach installiert werden:
apt install paplay
Nun können wir Thorsten so sprechen lassen:
curl -s -X POST -H 'Content-Type: application/json' -d '{ "text": "Das ist ein Test." }' <hostname von deinem Server>:5000 | paplay
Zusätzlich gibt es auch noch die Python API. Um z.B. verschiedene AI's anzubinden. Auf dieser wird hier aber nicht näher eingegangen, da dies den Rahmen sprengen würde.
Weitere deutsche Stimmen können hier heruntergeladen werden. Das Prinzip ist das Selbe wie bei Thorsten-Voice.

