Thorsten-Voice - ein Stimmme für dich

Thorsten-Voice ist deutsche künstliche Stimme die Offline, ohne Cloudanbindung verwendet wird.

Merkmale von Thorsten-Voice:

für Bildungseinrichtungen und Inklusion
IT / KI Projekte in Schulen
Content-Creator (Youtube, TikTok, Instagram, Twitch, …)
Öffentliche und soziale Organisationen (Museen, Kulturvereine,
kommunale Behörden)
Software Projekte (Open-Source oder Kommerziell)
nterstützung beim Lesen (Screenreader)
kostenlose Computerstimme
Funktioniert ohne Internetverbindung
Keine rechtlichen Einschränkungen

Installation auf Ubuntu 24.04 LTS:

Als erstes installiere das Paket für ein virtuelles Python-ENV nach. Das musst du nicht tun, hat aber den Vorteil das dein System so von den zusätzlichen Pythonlibs nicht beeinträchtigt werden kann.

apt install python3-venv

VENV aktivieren und betreten:

python3 -m venv /pfad_zu_einem_Ordner

z.B.:

python3 -m venv /root/thorsten-voice
source /root/thorsten-voice/bin/activate

Nun installierst du die Software inkl. Webschnittstelle:

pip install piper-tts[http] piper-tts

Als letzten Schritt muss das gewünschte Modell noch herunter geladen werden. Hierfür restellen wir einen Unterordner und laden dort die beiden Modelle herunter:

mkdir /root/thorsten-models
cd /root/thorsten-models
wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx.json
wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten/high/de_DE-thorsten-high.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten/high/de_DE-thorsten-high.onnx.json

Wir haben nun zwei Modelle zur Verfügung:

Neutrale Sprachausgabe
Emotionale Sprachausgabe

Benutzung direkt auf dem Gerät wo Thorsten installiert wurde

Grundsätzlich wurde Thorsten-Voice für die Generierung von Wave-Dateien konzipiert. Dies kann folgender Maßen auf dem Gerät erfolgen:

echo "Hallo das ist ein Test." | piper -m /root/thorsten-models/de_DE-thorsten-high.onnx -f ausgabe-neutral.wav

Damit wird also ein Wav-File generiert das verwendet werden kann.
Oder das ganze mit einer Emotion verbunden:

echo "Hallo das ist ein Test." | piper -m /root/thorsten-models/de_DE-thorsten_emotional-medium.onnx -f ausgabe-emotional.wav --speaker 1

Hier noch die Übersicht der verschiedenen emulierbaren Emotionen:

Benutzung auf einem externen Gerät z.B einem Desktop Rechner

Hierfür starten wir den Webserver (HTTP API) in dem virtuellen Python ENV. Nicht vergessen in das ENV einzusteigen:

source thorsten-voice/bin/activate

Webserver starten → auf Port 5000:

python3 -m piper.http_server -m /root/thorsten-models/de_DE-thorsten-high.onnx

Nun kann vom Client aus ein Wav generiert werden:

curl -X POST -H 'Content-Type: application/json' -d '{ "text": "Das ist ein Test." }' -o test.wav <hostname von deinem Server>:5000

Um direkt zu sprechen ohne eine Wav zu generieren, ist ein Ausgabeprogramm erforderlich. Paplay eignet sich hervoragend dafür. Dies ist im Standard von Ubuntu nicht enhalten und muss nach installiert werden:

apt install paplay

Nun können wir Thorsten so sprechen lassen:

curl -s  -X POST -H 'Content-Type: application/json' -d '{ "text": "Das ist ein Test." }' <hostname von deinem Server>:5000 | paplay

Zusätzlich gibt es auch noch die Python API. Um z.B. verschiedene AI's anzubinden. Auf dieser wird hier aber nicht näher eingegangen, da dies den Rahmen sprengen würde.

Weitere deutsche Stimmen können hier heruntergeladen werden. Das Prinzip ist das Selbe wie bei Thorsten-Voice.