Sprachmodelle und AI lokal betreiben
Das was bereits bei vielen seit Ende 2022 in aller Munde ist, kann in kleinen Projekten und in etwas reduzierterer Form auch lokal betrieben und verprobt werden.
Etwa ist es möglich ein rudimentäres Sprachmodell sehr schnell und leicht lokal zu installieren und zu betreiben, ohne dabei bei einer Anfrage Daten an einen Anbieter zu übermitteln.
Ein freies, für jeden verfügbares Sprachmodell ist etwa das Modell Llama von Meta (Lizenziert unter: LLAMA 2 Community License). Es ist in der Lage Texte zur analysieren, Fragen zu beantworten, Code zu erzeugen und sogar Bilder zu interpretieren. Unter folgendem Link bzw. Repository wird ein sehr leicht anwendbarer Fork des LLM bereitgestellt.
https://huggingface.co/jartine/llava-v1.5-7B-GGUF/tree/main
Zu erwähnen bleibt, dass es sich hierbei um einen Fork als „Komplettpaket“ auf Basis von C++ handelt. Sprachemodelle werden in der Regel nicht „out of the box“ mit einer GUI (Bspw. Webinterface auf einem Webserver) für entsprechende Prompts und Rückgaben ausgeliefert. In diesem Fall ist dieses jedoch schon im Lieferumfang enthalten.
Folgende Datei muss heruntergeladen werden. Möglicherweise wurden die Versionsnummer in der Zwischenzeit angepasst.
Nach dem Abschluss des Downloads der etwa 4,3 Gbyte großen Datei, gilt es die Dateierweiterung um .EXE zu erweitern um eine für Windows ausführbare Datei zu erhalten.
Anschließend führen wir die Datei aus. Sehr wahrscheinlich wird sich an dieser Stelle der Defender SmartScreen Schutz melden, da die Datei nicht signiert ist und so potentiell ein Risiko für das Betriebssystem darstellt. Grundsätzlich gilt, unsignierte Programme sollten immer innerhalb einer Sandbox oder dediziert dafür geschaffenen Umgebung ausgeführt werden. In diesem Fall vertrauen wir der Quelle des Programms und klicken auf „Weitere Information“ im Dialog und anschließend weiter unten auf den Button „Trotzdem ausführen“. In meinem Beispiel etwa, führe ich das Setup in einer isolierten VM aus. Hierfür könnt ihr einfach Hyper-V oder einen vergleichbaren Hypervisor verwenden.
Das Setup startet automatisch. Ein CMD-Fenster öffnet sich und führt alle notwendigen Operationen aus. Kurz darauf öffnet sich bereits der Webbrowser mit einer Verbindung zur Localhost-Adresse auf Port 8080.
Nun können wir noch einige Parameter anpassen um bspw. die Akkuratheit der Rückmeldungen zu definieren. Auch die maximale Größe der Anfragen (Tokens) kann angepasst werden. Grammatik-Erweiterungen können im JSON-Format ebenfalls nachinstalliert werden um den gegebenen Sprachumfang zu erweitern.
Beachtet, dass je nach Systemleistung die Rückmeldung mehr oder weniger Zeit in Anspruch nehmen kann.
Es gibt natürlich noch viele weitere Modelle die sich lokal betreiben lassen. Hierzu folgen vielleicht später weitere Artikel.
Viel Spaß mit deinem System-lokalen Sprachmodell Llama.