Lokales Home Assistant Voice in 2026 – endlich Massentauglich?

Home Assistant ist großartig, um smarte Komponenten aus verschiedenen Ökosystemen miteinander zu vereinen und auf viele verschiedene Arten zu steuern. Neben der App kann man Dashboards z.B. mithilfe eines Tablets in einer Wandhalterung realisieren, man kann physische Knöpfe z.B. über Zigbee einbinden oder auch versuchen, alles möglichst zu automatisieren, um idealerweise erst gar nicht mit dem System ineragieren zu müssen. Was davon man in welcher Form nutzen möchte, bleibt jedem Nutzer selbst überlassen. Es gibt allerdings neben den genannten Steuerungsmöglichkeiten noch eine weitere, die für viele die ideale Mischung zwischen möglichst wenig Technik-Interaktion und trotzdem möglichst gezielter Steuerung darstellt, und das ist die Steuerung mit der Stimme. Home Assistant bietet hierzu die Möglichkeit, Alexa oder Google Assistant fähige Smart Speaker anzubinden (die manuelle Einrichtung erfordert aber etwas Aufwand), und zusätzlich gibt es mit der von Nabu Casa betriebenen Home Assistant Cloud die Möglichkeit, Smart Speaker beider Systeme oder aber den eigens entwickelten Assist-Service mit nur wenigen Klicks einzurichten. Für viele Nutzer, die sich nicht lange mit der Einrichtung aufhalten wollen und vielleicht schon Smart Speaker von Amazon oder Google zuhause haben, kann das der vorzuziehende Weg sein – allerdings ist man dabei natürlich zumindest für die Heimsteuerung per Stimme wieder von einem (oder mehreren) Cloud-Diensten abhängig. Wer das nicht möchte, der kann sich allerdings auch eine vollständig lokale Assist-Pipeline einrichten, und genau das möchte ich in diesem Artikel genauer beleuchten. Dabei werden wir uns zunächst die technischen Grundvoraussetzungen ansehen, das Setup durchgehen und anschließend werde ich über meine Erfahrungen im Alltag berichten. In einem zukünftigen Artikel möchte ich auch noch die Einbindung eines (lokalen) LLMs beleuchten, das würde für diesen Beitrag jedoch den Rahmen sprengen.

Unten: Home Assistant Voice Preview, Oben: M5Stack Atom Echo

1. Lokales HA Voice: Vorteile und Voraussetzungen

Der größte Vorteil eines lokalen Voice Assistants ist neben der Unabhängigkeit von jeglichen Cloud-Diensten sicherlich die unschlagbare Privatsphäre – keine Audio-Aufnahmen aus der eigenen Wohnung müssen je das LAN verlassen und auch ansonsten können keine Nutzungsdaten erhoben werden. Dass das Abhören durch Tech-Konzerne nicht nur eine theoretische Sorge ist, zeigen bereits Fälle aus der Vergangenheit, und auch Behörden können durchaus an derartigen Daten interessiert sein und fragen diese auch an. Letztendlich waren Datenschutzbedenken auch der Grund für mich, weshalb ich mich entschieden habe, mir einen lokalen Voice Assistant einzurichten.

Allerdings muss erwähnt werden, dass die lokale Sprachverarbeitung auch gewisse Einschränkungen bzw. Voraussetzungen mit sich bringt. So ist hierfür grundsätzlich Hardware mit einer gewissen Leistungsfähigkeit erforderlich. Das Home Assistant Projekt selbst nennt den Intel N100 als Basis, der häufig in günstigen Mini-PCs anzutreffen ist. Leider sind die Preise hier zuletzt wie überall sonst auch deutlich gestiegen, aber auch heute (Stand: März 2026) findet man auf Plattformen wie Ebay oder AliExpress noch Mini-PCs mit N100, RAM und SSD für unter 200€. Eine Alternative hierzu sind gebrauchte bzw. Refurbished Thin Clients oder Mini-PCs aus dem Geschäftsumfeld, ich persönlich setze z.B. einen HP T640 mit AMD Ryzen R1505G ein, welcher leistungstechnisch ebenfalls ausreicht, obwohl er zwei Kerne weniger als der N100 hat. Bei einer kurzen eBay-Stichprobe konnte ich noch einige Exemplare mit 8GB RAM und zugegebenermaßen nicht gerade großzügiger (aber ausreichender) 64GB eMMC-SSD für unter 100€ finden. Der Raspberry Pi 5 könnte (im Gegensatz zum Pi 4) auch genügend Leistung bieten, ist aber preislich meiner Ansicht nach derzeit nicht sonderlich attraktiv gegenüber Thin Clients und Mini-PCs. In Sachen RAM würde ich als Minimum 4 GB ansetzen, 8GB hingegen sind (noch) deutlicher Overkill. Unter 4GB wird es sehr schnell eng, wenn man diverse Add-Ons installieren möchte.

Ich verwende auf meinem Thin Client Home Assistant OS (HAOS), was ich generell empfehlen würde, da die Container-Variante von Home Assistant keine Apps installieren kann – das liegt daran, dass die Apps, wie auch Home Assistant selbst, als eigener Container laufen. Selbstverständlich lässt sich HAOS auch problemlos virtualisieren, falls ihr beispielsweise Proxmox verwendet.

Darüber hinaus benötigt man für lokales Assist spezielle Smart Speaker mit offener Hard- und Software (ESPHome). Hier gibt es verschiedene Optionen und diese sind auch nicht notwendigerweise teuer, aber wer z.B. bereits eine Alexa zuhause hat, kann diese leider nicht weiter verwenden. Auch können diese Lautsprecher Leistungstechnisch sowohl bei Klang als auch Mikrofonqualität nicht mit ihren kommerziellen Konkurrenten mithalten.

Der für HA am meisten verbreitete Smart Speaker ist der von Nabu Casa vertriebene Home Assistant Voice Preview Edition, der für ca. 60€ im Onlinehandel erhältlich ist. Obwohl der Zusatz „Preview Edition“ nahelegt, dass es sich hierbei noch um eine Art Beta-Produkt handelt, bekommt man damit einen durchaus voll ausgestatteten Smart Speaker mit allen typischen Funktionen. So bietet er z.B. zwei Mikrofone mit Hintergrundgeräuschunterdrückung, einen Mute-Switch, ein Drehrad mit schickem LED-Ring zur Bedienung und Statusanzeige sowie einen Klinkenausgang. An der Qualität des Mikrofons habe ich grundsätzlich auch wenig auszusetzen, allerdings muss man seine Erwartungen an die Klangqualität des Lautsprechers doch zügeln. Für klar verständliche Sprachrückmeldungen reicht es, aber für die Wiedergabe von Medien (welche grundsätzlich möglich ist) macht die Voice Preview keinen Spaß – da bietet die kommerzielle Konkurrenz mehr. Allerdings erlaubt der Klinkenausgang natürlich den Anschluss von externen Lautsprechern. Die Stromversorgung funktioniert über USB-C, ein Netzteil oder Kabel liegt allerdings nicht bei.

Wer möglichst wenig ausgeben möchte, der wird wahrscheinlich auch auf den M5Stack Atom Echo stoßen, der bereits für deutlich unter 20€ erhältlich ist. Dieser war ursprünglich als Devkit gedacht und existiert bereits länger als der Voice Preview Edition, sollte grundsätzlich aber ebenfalls alle grundliegenden Funktionen inklusive lokaler Wakeword-Detection bieten. Ich kann den Atom Echo jedoch unter keinen Umständen empfehlen – obwohl ich mich an den offiziell dokumentierten Einrichtungsweg gehalten habe, konnte ich die Echos nämlich nicht zur Kooperation mit Home Assistant bewegen. Es scheint, dass die ESPHome Firmware mittlerweile ressourcenintensiver geworden ist, und auf dem Atom Echo Crashes durch ungenügend RAM auslöst, solange man die lokale Wakeword-Detection aktiv hat. Und selbst wenn man diese deaktiviert, ist die Audioqualität leider so schlecht bzw. der Speaker so leise, dass man in vielen Fällen noch nicht einmal die gesprochenen Rückmeldungen von Home Assistant verstehen kann.

Wer Home Assistant Voice zunächst einmal ausprobieren möchte, der kann aber auch völlig auf Smart Speaker verzichten und mit dem System über die Home Assistant App auf dem Mobiltelefon oder am PC interagieren – lediglich das „Aufwecken“ per Wake Word geht damit nicht.

2. Das Setup

Grundsätzlich funktioniert Voice auf Home Assistant nach folgendem Schema:

  1. Assistant wird über Wakeword (z.B. „Hey Jarvis“) oder per Push-to-Talk aktiviert
  2. Sprache wird über STT (Speech to Text) erkannt
  3. Befehl wird verarbeitet (ohne LLM immer über die „Intent Engine“) und die Aktion wird ausgeführt
  4. Antworttext wird über TTS (Text to Speech) ausgegeben

Die Einrichtung der notwendigen Komponenten ist alles in allem recht einfach, aber ich werde sie hier der Reihe nach dennoch kurz durchgehen.

2.1 Smart Speaker/Voice Client

Wie bereits erwähnt, benötigt man für die Nutzung von Voice mit Sprachaktivierung einen Smart Speaker, welcher ESPHome unterstützt. Die Wakeword Detection, die für die Sprachaktivierung zuständig ist, läuft dabei wie auch bei den kommerziellen Systemen in der Regel auf dem Lautsprecher selbst, was den Vorteil hat, dass man keinen ständigen Audiostream durchs WLAN senden muss. Die Anzahl möglicher Wakewords ist hier aber stark begrenzt, da auf den ESP32-basierten Satelliten nur sehr kleine, hoch optimierte Modelle lauffähig sind – wer sich spielen möchte und aus potenziell hunderten möglichen Wakewords wählen will, der kann grundsätzlich auch OpenWakeWord auf dem Home Assistant Server selbst ausführen, wodurch die Satelliten einen ständigen Audiostream an Home Assistant senden.

Solltet ihr euch für einen Voice Preview Edition (oder einen anderen ESPHome-kompatiblen Smart Speaker, sofern verfügbar) entscheiden, ist die Einrichtung in Home Assistant denkbar einfach – ein Assistent führt durch alle notwendigen Schritte. Der Voice Preview will dafür entweder per Bluetooth mit eurem Telefon oder aber alternativ mit dem Home Assistant Server direkt verbunden werden (sofern dieser Bluetooth hat), nach der Einrichtung läuft dann alles über WLAN. Hier ist der Prozess im Detail dokumentiert. Dabei werdet ihr gefragt, ob ihr einen Cloudgestützten oder vollständig lokalen Assistenten verwenden wollt, wobei für letzteren immer ein „Vollständig lokaler Assistent“ angelegt wird, auch wenn ihr schon einen HA Voice Assistenten konfiguriert habt. Ihr könnt aber nach Abschluss der Einrichtung den aktiven Assistenten für jeden Satelliten einzeln anpassen und sogar zwei unterschiedliche Wakewords für je einen Assistenten konfigurieren. Solltet ihr HA Voice noch nicht eingerichtet haben, bietet der Assistent auch gleich die Installation von Piper und Whisper für Spracherkennung und -Ausgabe an.

Falls ihr Voice erstmal ohne Smart Speaker ausprobieren wollt, könnt ihr diesen Schritt natürlich überspringen und müsst Piper und Whisper manuell aus dem Add-On Store installieren.

2.2 Spracherkennung mit Whisper

Damit Home Assistant eure gesprochenen Befehle verstehen kann, muss es auf eine Software wie Whisper zurückgreifen. In der Regel läuft Whisper als Add-On auf dem Home Assistant Server, allerdings ist es auch möglich, einen standalone Whisper Server im LAN aufzusetzen – das könnte dann interessant sein, wenn HA zwar auf schwacher Hardware läuft, aber ein anderer leistungsfähiger Server zuhause steht. Diesen fügt ihr dann als „Integration“ unter „Wyoming Protocol“ hinzu, anschließend steht er für eure Assist Pipeline zur Verfügung. Das Installieren eines externen Whisper-Servers ist per Docker verhältnismäßig einfach, ich werde es in diesem Artikel allerdings nicht gesondert behandeln.

Falls ihr das Add-On installiert, aber HA es noch nicht als Integration hinzugefügt hat, müsst ihr einmal unter Einstellungen > Geräte und Dienste das unter „Entdeckt“ gelistete Whisper hinzufügen, was mit einem Klick geht. Für das Whisper Add-On könnt ihr dann direkt aus der Home Assistant UI diverse Einstellungen verändern, die ihr nach Installation unter Apps > Whisper > Konfiguration findet. Für den Beginn empfehle ich es allerdings, die Einstellungen auf „Auto“ zu lassen, dann verwendet Whisper auf x86-Hardware das „base-int8“-Modell. Lediglich die Sprache solltet ihr anpassen, sofern sie noch nicht richtig gesetzt ist.

Ob Whisper korrekt von Home Assistant erkannt wurde könnt ihr einfach testen, indem ihr in den Einstellungen unter „Sprachassistenten“ euren Assistenten anwählt (oder einen neuen anlegt) und prüft, ob eure Whisper-Instanz unter „Sprache-zu-Text“ angeboten wird.

2.3 Die Home Assistant Intent Engine

Wie bereits erwähnt, verwendet der lokale Assistent standardmäßig die so genannte „Home Assistant Intent Engine„, um eure Kommandos in Befehle umzusetzen. Dabei handelt es sich nicht um ein LLM, sondern im Grunde nur um eine Sammlung von festgelegten Sätzen, die dann den entsprechenden Befehlen zugeordnet werden. Auf den ersten Blick mag das extrem unflexibel klingen und natürlich sind die Möglichkeiten dadurch zunächst einmal begrenzt, allerdings werden in der Regel durchaus mehrere Formulierungen abgedeckt. Zusätzlich ist es möglich, auch eigene Befehle anzulegen, am einfachsten per Automation. Eine einfache Liste an standardmäßig möglichen Befehlen auf Deutsch gibt es leider nicht, die Dokumentation bietet zwar ein „Starter Pack“ mit den wichtigsten Befehlen, allerdings nur auf Englisch. Ich empfehle, es einfach mal zu versuchen, aber wer wirklich eine vollständige Auflistung sucht, muss den Weg über GitHub gehen, wo alle Befehl-Templates für alle Sprachen abrufbar sind.

In jedem Fall müssen, damit eure Befehle sinnvoll umgesetzt werden können, die zu steuernden Entitäten sowohl für Assist verfügbar, als auch sinnvoll benannt sein, da die Intent Engine euren Befehl sonst nicht zuordnen kann. Entitäten können z.B. Lichter, Thermostate, Rolläden und vieles mehr sein. Ihr könnt das unter Einstellungen > Sprachassistenten > […] verfügbare Entitäten prüfen und auch Entitäten hinzufügen. Wenn ihr eine Entität anwählt, habt ihr die Möglichkeit, Aliase hinzuzufügen. Diese gelten nur für Assist und können dabei helfen, dass Voice die richtigen Entitäten auch bei unterschiedlichen Formulierungen findet (z.B. „Deckenleuchte“ und „Deckenlampe“). Zusätzlich ist wichtig, dass Entitäten den korrekten Bereichen bzw. Räumen zugeordnet sind, damit Befehle wie „Mache das Licht im Wohnzimmer aus“ korrekt funktionieren. Zusätzlich könnt ihr auch eure verwendeten Smart Speaker einem Raum zuordnen, sodass diese dann räumlichen Kontext („hier“) verstehen. Solltet ihr hier noch nachbessern wollen, könnt ihr das direkt aus den Assist-Einstellungen machen, auch wenn es einige Klicks erfordert: Wählt die gewünschte Entität an, klickt im sich daraufhin öffnenden Fenster oben rechts auf das Symbol zur Detailansicht und dann auf das Symbol für Einstellungen. Hier lässt sich der Name der Entität verändern, wenn ihr den Raum (neu) zuordnen wpllt. müsst ihr dazu noch auf „Geräteeinstellungen öffnen“ klicken. Der Vorteil hiervon ist, dass ihr nach dem Schließen der Dialogfenster immer noch in der Assist-Konfiguration seid, was die Übersicht über relevante Entitäten erleichtert – aber natürlich könnt ihr diese Einstellungen auch an anderer Stelle vornehmen. Unterm Strich werdet ihr hiermit wahrscheinlich die meiste Zeit verbringen, insbesondere wenn ihr viele Entitäten in Home Assistant habt. Tipp: Versucht am besten, für den Anfang nur das für Assist verfügbar zu machen, was ihr auch wirklich über die Stimme steuern oder abfragen wollt. So kommt die Intent Engine weniger durcheinander und falls ihr später ein LLM einsetzen wollt, tut ihr euch damit einen großen Gefallen.

Abgesehen von euren Entitäten benötigt die Intent Engine keine weiteren Einstellungen. Solltet ihr euch irgendwann dazu entschließen, ein LLM für Assist einzusetzen, ersetzt dieses quasi die Intent Engine.

2.4 Sprachausgabe für Rückmeldungen

Damit Home Assistant nicht nur gesprochene Befehle verarbeiten, sondern auch verbal Rückmeldungen geben kann, benötigt ihr noch ein Text-To-Speech Add-On, bei HA übernimmt dies Piper. Auch hier wäre die Verwendung eines externen Piper-Servers zwar möglich, dürfte aber so gut wie nie notwendig sein, da Piper im Gegensatz zu Whisper sehr ressourcenschonend ist und beispielsweise auch auf einem Raspberry Pi ausreichend schnell funktioniert.

Genau wie Whisper muss auch Piper nach der Installation des Add-Ons nochmal unter Geräte und Dienste hinzugefügt werden. Auch das Piper Add-On bietet diverse Einstellungen, für den Anfang ist aber nur die Wahl der Stimme relevant. Home Assistant bringt hier standardmäßig bereits mehrere Modelle mit, die teilweise in verschiedenen Qualitätsstuden (low, medium, high) kommen. Ich persönlich verwende auf meinem Thin Client die Thorsten-Stimme in der mittleren Qualitätsstufe, ihr könnt aber natürlich alle Stimmen einmal durchtesten. Am einfachsten macht ihr das über Medien > Text To Speech > Piper machen.

3. Meine Erfahrungen mit HA Voice

Jetzt habt ihr alle Komponenten für eine funktionierende HA Voice Pipeline beisammen und könnt diese einsetzen. Kontrolliert am besten nochmal unter Einstellungen > Sprachassistenten > Euer Assistent, dass auch alles richtig eingestellt ist.

Ich habe Assist jetzt mittlerweile einige Wochen verwendet und kann daher mittlerweile ein Fazit ziehen. Beginnen wir gleich mit der Sprachaktivierung mittels Wakeword. An sich funktioniert diese recht gut, allerdings musste ich die Erfahrung machen, dass „Okay Nabu“ als Wakeword deutlich zuverlässiger klappt als „Hey Jarvis“, was sich auch mit anderen Berichten im Internet deckt. Mit „Okay Nabu“ steht die Erkennungsrate nach meiner Erfahrung den kommerziellen Alternativen in nichts nach, Jarvis hingegen ist manchmal scheinbar etwas schwerhörig.

Die Spracherkennung mittels Whisper ist zumindest auf Deutsch leider nicht so robust wie die von kommerziellen Alternativen, zumindest nicht mit dem für HA sinnvollen „base-int8“-Modell. Hier müsst ihr also durchaus darauf achten, nicht zu schnell und vor allem deutlich zu sprechen, weil sonst gerne ähnlich klingende Laute (z.B. „m“ und „n“) vertauscht werden und Voice den Befehl dann nicht versteht. Whisper hat auch eine Tendenz dazu, zu kurz gesprochene Leerzeichen zwischen Wörtern zu ignorieren oder sich Wörter „auszudenken“, insbesondere wenn diese eingedeutscht sind, weshalb es sich empfiehlt keine derartigen Namen für Entitäten zu wählen (also lieber „Flur“ statt „Foyer“). Das ist schade, denn damit steht und fällt selbstverständlich der „Erfolg“ des Sprachassistenten. Ich würde das aus diesem Grund auch als die größte Schwachstelle des Systems beschreiben, und leider ist das eine, an der man zumindest aktuell aufgrund fehlender Alternativen nicht wirklich vorbei kommt.

Eine Sache, die mit HA Voice Satelliten wie dem Voice Preview richtig gut funktionieren sind Timer, was ihn nützlich für die Küche macht. So kann man nicht nur mehrere Timer anlegen, sondern diese auch benennen, was beim Überblick helfen kann. Einziges Manko: Wenn die Timer jetzt auch noch in HA an anderer Stelle, z.B. im Dashboard sichtbar wären, dann wäre es perfekt – nach meinem Verständnis laufen die Timer aber lokal auf den Satelliten, weshalb das noch nicht klappt.

Sofern der Sprachbefehl korrekt erkannt wurde, bietet die Intent Engine einen überraschend umfassenden Befehlskatalog, der durchaus auch verschiedene Formulierungen versteht – aber natürlich leider nie alle. So werden beispielsweise Szenen unterstützt, diese lassen sich jedoch nicht explizit für einen Raum aktivieren, was dann stört, wenn man gleich benannte Szenen in mehreren Räumen nutzt. Da das für mich ein wichtiger Usecase war, habe ich mir dafür eine Automation erstellt. Für den „Wife Approval Factor“ habe ich dabei möglichst viele Formulierungen eingeschlossen. Als Inspiration für eure eigenen Automatisierungen könnt ihr meine Szenen-Automatisierung hier finden (zum Ausklappen einmal klicken:

alias: "Voice: Szene aktivieren (Raum + Name)"
description: ""
triggers:
  - trigger: conversation
    command:
      - >-
        [bitte] (aktiviere|starte|schalte|setze) (die|das) (szene|lichtszene)
        {scene_name} (im|in) {room}
      - "[bitte] (aktiviere|starte|schalte|setze) {scene_name} (im|in) {room}"
      - "[bitte] (im|in) {room} (aktiviere|starte|schalte|setze) {scene_name}"
      - >-
        [bitte] (im|in) {room} (aktiviere|starte|schalte|setze) (die|das)
        (szene|lichtszene) {scene_name}
      - >-
        [bitte] (aktiviere|starte|schalte|setze) (im|in) {room} (die|das)
        (szene|lichtszene) {scene_name}
      - "[bitte] (aktiviere|starte|schalte|setze) (im|in) {room} {scene_name}"
      - >-
        [bitte] (aktiviere|starte|schalte|setze) (im|in) {room} (die|das) szene
        {scene_name}
      - >-
        [bitte] mach[e] (die|das) (szene|lichtszene) {scene_name} (im|in) {room}
        an
      - "[bitte] mach[e] {scene_name} (im|in) {room} an"
      - "[bitte] (im|in) {room} mach[e] {scene_name} an"
      - >-
        [bitte] (im|in) {room} mach[e] (die|das) (szene|lichtszene) {scene_name}
        an
      - >-
        [bitte] mach[e] (im|in) {room} (die|das) (szene|lichtszene) {scene_name}
        an
      - "[bitte] mach[e] (im|in) {room} {scene_name} an"
actions:
  - variables:
      room_raw: "{{ trigger.slots.room | default('') }}"
      scene_raw: "{{ trigger.slots.scene_name | default('') }}"
      room_norm: "{{ room_raw | lower | trim | regex_replace('\\\\s+', ' ') }}"
      scene_norm: "{{ scene_raw | lower | trim | regex_replace('\\\\s+', ' ') }}"
      room_mapped: |-
        {% if room_norm == 'wohnzimmer' %}
          wohnbereich
        {% else %}
          {{ room_norm }}
        {% endif %}
      target_name_norm: >-
        {{ (room_mapped ~ ' ' ~ scene_norm) | trim | regex_replace('\\s+', ' ')
        }}
      matched_scene: |-
        {% set target = target_name_norm %} {% for s in states.scene %}
          {% set fn = (s.attributes.friendly_name | lower | trim | regex_replace('\\s+',' ')) %}
          {% if fn == target %}
            {{ s.entity_id }}
            {% break %}
          {% endif %}
        {% endfor %}
  - choose:
      - conditions:
          - condition: template
            value_template: "{{ matched_scene | trim != '' }}"
        sequence:
          - target:
              entity_id: "{{ matched_scene | trim }}"
            action: scene.turn_on
    default:
      - data:
          title: Szene nicht gefunden
          message: >-
            Habe keine Szene gefunden für: room='{{ room_raw }}' (mapped='{{
            room_mapped }}') scene='{{ scene_raw }}' gesucht: '{{
            target_name_norm }}'
        action: persistent_notification.create
mode: single

Rückmeldungen per Sprache sind mit der Intent Engine natürlich prinzipdedingt relativ begrenzt, und beschränken sich in der Regel auf eine kurze Bestätigung oder z.B. die Ansage eines Datenpunkts wie der Temperatur. Das funktioniert jedoch problemlos und ich hatte auch keine Schwierigkeiten, den gesprochenen Text der Thorsten-Stimme zu verstehen – im Gegenteil, ich finde sogar, dass diese sich überraschend natürlich anhört, insbesondere in der mittleren und hohen Qualitätsstufe. Mehr Relevanz erhält die TTS-Stimme aber erst, wenn man damit beispielsweise verbale Reminder umsetzt (das geht aber auch ohne Voice z.B. übers Wand-Dashboard), oder aber wenn man ein LLM verwendet.

4. Fazit

Insgesamt ist HA Voice mittlerweile ein durchaus nutzbares System zur Steuerung des eigenen Zuhauses mit der Stimme. Allerdings gerät man schnell an die Grenzen des Systems, und zumindest auf Deutsch fand ich die zur Verfügung stehenden Befehle oft ein wenig unflexibel bzw. holprig. Das ist kein Problem, wenn man diese einfach „erlernt“, aber wer mit Menschen zusammenlebt, die kein Interesse daran haben, den wird das stören.

Insgesamt ist der größte Reiz von lokalem HA Voice ohne ein LLM die Modularität: Theoretisch lässt sich fast alles per Stimme umsetzen, wenn man die Zeit investiert und entsprechende Automationen schreibt. Das hat HA Voice kommerziellen Systemen wie Alexa oder Google Assistant definitiv voraus. Darüber hinaus bietet es auch die Möglichkeit, später ein LLM einzubinden, was (zumindest in der Theorie) das Problem mit den starren Sprachbefehlen lösen und noch andere Dinge wie z.B. Antworten auf Wissensfragen (basierend auf Websuchen) ermöglichen sollte – allerdings ist auch das natürlich nicht für jedermann, weil man entweder entsprechende Hardware oder aber ein kostenpflichtiges Cloud-LLM benötigt, und plug and play ist es auch nicht. In einem zukünftigen Beitrag möchte ich mich mit meinen Erfahrungen damit beschäftigen.

Wer bereits Alexa oder Google Assistant nutzt und damit zufrieden ist, der wird mit HA Voice derzeit wahrscheinlich eher nicht glücklich. Wer allerdings noch keinen Sprachassistenten nutzt, oder wenn Privatsphäre das oberste Gebot ist, für den ist HA Voice einen Blick wert – ein anderes offenes und lokal ausführbares System mit diesem Leistungsumfang gibt es derzeit schlicht nicht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.