Home Assistant Voice erweitern mit LLM – ein Erfahrungsbericht

Im letzten Beitrag hatte ich mich mit Home Assistant Voice beschäftigt und bin zu dem Ergebnis gekommen, dass es durchaus benutzbar ist, aber leider noch nicht ansatzweise das Level kommerzieller Smart-Speaker erreicht – zu starr sind teilweise die in der „Intent Engine“ hinterlegten Formulierungen, und auch kleinste „Verhörer“ der Speech-to-Text Engine führen zwangsläufig zu einer Fehlermeldung. Dem kann man entgegensteuern, indem man eigene Sprachbefehle anlegt, aber das ist aufwendig und löst auch das Problem mit manchmal falsch verstandenen Wörtern nicht wirklich.

Eine attraktiv erscheinende Alternative ist da das Einbinden eines LLMs, da es beide Probleme zu lösen vermag, weil es natürliche Sprache versteht und sich zumindest in der Theorie auch nicht sofort von missverstandenen Wörtern aus der Ruhe bringen lässt. Das LLM kann dabei grundsätzlich sowohl lokal laufen, als auch in der Cloud – für Ersteres benötigt man allerdings einen Rechner mit entsprechend starker GPU, und für letzteres muss man Kosten für die Nutzung der LLM-API in Kauf nehmen und verliert natürlich (zumindest teilweise) den Vorteil der besseren Privatsphäre. Trotzdem werde ich beide Herangehensweisen beleuchten, denn glücklicherweise gibt es noch andere Alternativen als die bekannten LLM-Anbieter aus den USA.

Da sich dieses Feld schnell bewegt und es verschiedene technische Lösungsansätze dafür gibt, möchte ich in diesem Artikel keine Schritt-für-Schritt-Anleitung festhalten, sondern eher allgemein über meine Erfahrungen beim verwenden von LLMs in Home Assistant sprechen.

Noch bevor man ein LLM einbindet, muss man sich für eine Integration entscheiden. Ich verwende hierfür aktuell „HACS Local OpenAI LLM„, da es deutlich einsteigerfreundlicher als „Extended OpenAI Conversation“ ist und über das optionale Addon „Tools for Assist“ auch Zusatzfunktionen wie Websuche, Umrechnungen und Wettervorhersagen unterstützt, ohne dass man viel einrichten muss. Lasst euch von den Namen nicht verwirren, „OpenAI“ bedeutet in diesem Fall nur, dass euer LLM über eine OpenAI-Kompatible API erreichbar sein muss.

1. Alles lokal?

Wer Home Assistant nicht nur einsetzt, weil es praktisch ist, sondern auch um der Datensammelwut von Clouddiensten zu entkommen, für den wird ein vollständig lokales LLM eine reizvolle Option sein. Lokal lauffähige LLMs haben in den letzten Jahren genau wie ihre Artgenossen aus der Cloud sehr große Fortschritte gemacht, und eignen sich grundsätzlich sehr gut für klar umrissene Aufgaben wie das Steuern des Smart Home. Dennoch benötigt man hierfür nach wie vor eine GPU mit entsprechend viel VRAM – 8GB sind das realistische Minimum. Aber auch wenn man die hat, kann es passieren, dass die Geschwindigkeit nicht zufriedenstellend ist – ich habe es mit einer Radeon RX 5700XT versucht, da ich keine neue Hardware anschaffen wollte. Diese hat zwar genug VRAM, aber war in der Praxis einfach viel zu langsam – 10-60 Sekunden warten (ja, manchmal dauerte es wirklich so lange!), bis das LLM sich überlegt hat, welche Entität gemeint war, dürfte für die wenigsten Nutzer akzeptabel sein. Trotzdem habe ich verschiedene Modelle getestet, da es grundsätzlich ja funktioniert hat.

Für meine lokalen Tests habe ich einen Llama-Server in einer Ubuntu-VM auf meinem TrueNAS Scale-System verwendet, welche per PCIe Passthrough Zugriff auf die RX 5700XT hatte. Empfehlen würde ich das übrigens nicht unbedingt, weil zumindest mit der 5700 XT das erfolgreiche Durchreichen in TrueNAS einiges an Troubleshooting gebraucht hat – Proxmox wäre hier wahrscheinlich die bessere Wahl gewesen.

Modelle für die lokale Nutzung

Das primäre Merkmal, welches den VRAM-Bedarf eines Modells bestimmt, ist die Anzahl der Parameter. Hier gibt es unzählige Größenordnungen von 1B (1 Milliarde Parameter) bis weit über 120B hinaus. Auf Consumer-GPUs wird man letztere Modelle allerdings selbstverständlich nicht zum Laufen bekommen. Gerade für Home Assistant muss man auch beachten, dass der Kontext (also der Input ins LLM) auch noch in den VRAM passen muss, und weil das häufig eine Liste mit allen oder zumindest vielen Entitäten ist, muss das Kontextfenster entsprechend groß gewählt sein – ein realistisches Minimum sind 8K Kontextgröße, aber wer auf Nummer sicher gehen will, sollte eher in Richtung 12k oder gar 16k gehen.

Auf einer GPU mit 8GB VRAM wird das realistische Maximum daher bei Modellen mit 8 Milliarden Parametern (8B) liegen, hier bewegen sich auch die von mir getesteten Modelle. Kleinere Modelle haben den Vorteil, dass sie schneller laufen, aber zumindest in meinen Tests konnte ich mit 4B-Modellen keine zufriedenstellenden Ergebnisse mehr erzielen – sie fingen an, Toolcalls zu halluzinieren und führten somit ihre Anweisungen nicht mehr korrekt aus. Die im Netz häufig genannte Standardempfehlung scheint Quen3-8B Q4 zu sein, aber witzigerweise habe ich damit keine wirklich überzeugenden Ergebnisse erzielen können – auf Anfragen wie beispielsweise „Aktiviere im Wohnzimmer die Szene Entspannen“ gab das Modell einen Schwenk über entspannendes Licht aus, aber bediente sich nicht eines einzelnen Toolcalls. Zufriedenstellend lief es mit Meta Llama 3.1 8B Instruct, obwohl es sich dabei um ein älteres Modell handelt – es hielt sich deutlich reproduzierbarer an die Anweisungen des Systemprompts und führte tatsächlich die gewünschten Toolcalls aus, auch verhielt es sich bei Aufgaben wie Websuchen und Fragen nach dem Wetter wie gewünscht und gab sinnvolle Antworten aus. Das Problem war hier letztlich schlicht die Geschwindigkeit – manche Anfragen liefen tatsächlich in erträglichen 5 Sekunden durch, für andere genehmigte sich das Modell bis zu 60 Sekunden Bedenkzeit. Der VRAM ist hierbei nicht übergelaufen, daran sollte es also nicht liegen.

Kleinere Modelle wie Quen 4B würden die Geschwindigkeit erhöhen, allerdings konnte ich damit keine stabilen Ergebnisse mehr erzielen. Der Sweetspot könnte eine moderne Karte mit 12GB VRAM wie die Intel B580 sein, welche aktuell (Stand: April 2026) als einzige Karte mit mehr als 8GB VRAM unter 300€ zu bekommen ist. Diese sollte merklich schneller arbeiten und eventuell auch noch etwas größere Modelle wie Quen3-14B erlauben, testen konnte ich das allerdings freilich nicht.

2. Alles in der Cloud?

Wer keine entsprechend leistungsfähige GPU zuhause herumliegen hat und die Anschaffungskosten hierfür scheut, der hat selbstverständlich die Möglichkeit, ein Cloudbasiertes LLM über eine API zu nutzen. Die offensichtlichen Kandidaten hierzu wären sicherlich die Angebote der KI-Schmieden OpenAI, Anthropic, Mistral & Co, wobei es sich (bis auf Mistral) hierbei natürlich wieder um US-Konzerne handelt, die unter Umständen eure Daten zum Trainieren ihrer Modelle verwenden. Außerdem können auch die kleineren Modelle bei häufiger Nutzung durchaus etwas ins Geld gehen, so nimmt OpenAI (Stand: April 2026) für GPT-5.4-nano immer noch ca. 20 Cent pro eine Million Input-Tokens und 1,25€ pro eine Million Output-Tokens. Geht man pessimistisch von 25.000 Input-Tokens pro Anfrage, 1.200 Output-Tokens pro Antwort und 50 Interaktionen pro Tag aus, kommt man so immer noch auf ca. 10€ im Monat, beim leistungsfähigeren GPT-5.4-mini wäre man unter der gleichen Annahme gar bei ca. 35€.

LLM-Dienstleister als Alternative

Hier kommt allerdings der spannende Teil: Es gibt mittlerweile glücklicherweise Alternativen zu den großen KI-Unternehmen, die als bloße Dienstleister fungieren und diverse OpenSource-Modelle über APIs anbieten. Aus Deutschland gibt es hier IONOS, dessen Angebot sich (derzeit) allerdings nur an Firmenkunden richtet. Ebenfalls aus der EU und erstaunlich günstig ist das Angebot von OVH, welches auch an Privatkunden vermarktet wird. Beide bieten diverse Modelle an, interessant ist meiner Ansicht nach aber vor allem GPT-OSS-120b, ein OpenSource-Modell von OpenAI mit 120 Milliarden Parametern. Zwar dürfte es nicht in der gleichen Liga wie die aktuellsten Modelle der AI-Schmieden spielen, für die Anwendung in Home Assistant ist es jedoch im Grunde sogar Overkill – dennoch nimmt OVH (Stand: April 2026) nur 8 Cent pro 1M Input-Tokens, und 40 Cent pro 1M Output-Tokens. Bleiben wir bei unserem Szenario von vorhin, würden das also Kosten von ca. 3,70€ im Monat verursachen. OVH bietet noch günstiger auch das kleinere Modell GPT-OSS-20b an, dieses neigte bei mir jedoch stark zum Halluzinieren von Entitäten und Toolcalls. Dennoch halte ich das Angebot von OVH mit GPT-OSS-120b für derzeit mit Abstand das Beste für ein Cloud-LLM für Home Assistant.

Für die meisten Nutzer dürfte genau hier der beste Kompromiss aus Datenschutz, Kosten und Lock-in liegen (schließlich muss man keine teure Hardware kaufen). OVH verspricht explizit, keine Daten zum Trainieren von Modellen zu verwenden, was für einen Dienstleister, der selbst keine Modelle entwickelt, auch vollkommen plausibel erscheint. Außerdem steht in der Dokumentation explizit „we do not store user data“ und die Datenverarbeitung erfolgt in Frankreich, also innerhalb der EU.

Letztlich ist meine Wahl daher auf OVH mit GPT-OSS-120b gefallen, und damit bin ich sehr zufrieden. Die Antwortlatenz bewegte sich bis jetzt stets im Bereich weniger Sekunden und das Sprachmodell kommt auch mit unpräzisen Fragestellungen „Wird es morgen wärmer als heute?“ oder „Brauche ich heute einen Regenschirm?“ sehr gut zurecht.

3. Fazit

Der Gedanke, ein lokales LLM im Smart Home zu betreiben, ist reizvoll, aber nicht immer praktikabel. Die großen LLM-Unternehmen am anderen Ende der Skala locken ihrerseits mit den neuesten und besten Modellen, fallen aber für viele (zu Recht!) bei der Betrachtung des Datenschutzes durch. Der Sweetspot liegt meiner Ansicht nach dazwischen, bei kommerziellen Dienstleistern, die gängige OpenSource-Modelle über APIs anbieten. Diese sind nicht nur deutlich günstiger, sondern versprechen auch gute Datenschutzbedingungen. Bevor ihr also loslauft und euch eine GPU anschafft, würde ich es zumindest immer einmal auf diesem Weg versuchen.

Generell ist aber auch hier zu empfehlen, die standardmäßig aktive lokale Ausführung über die HA-Intent Engine aktiv zu lassen und das LLM nur als Fallback für komplexe Fragen oder Verhörer zu verwenden – in diesem Fall dürftet ihr wahrscheinlich auf nur wenige Cent im Monat kommen.

Maxis Blog

Computer, Technik, Reisen & mehr