KI Trends 2024

22. Januar 2024

von Jan Winkler

Themen

Die Welt der Künstlichen Intelligenz (KI) entwickelt sich dynamisch und bringt jedes Jahr bahnbrechende Neuerungen hervor. Nachfolgend präsentieren wir drei KI-Trends für das Jahr 2024, die das Potenzial haben, die Art und Weise, wie wir mit KI-Technologie interagieren, weiter zu verändern. Diese Entwicklungen umfassen die Nutzung von Retrieval-Augmented Generation (RAG) Systemen im Geschäftskontext, die zunehmende Bedeutung von multimodaler KI und die Verkleinerung von KI-Modellen für ihre Nutzung auf Smartphones.

Trend 1: RAG und Integration von Geschäftsspezifischen Daten

Was bedeutet RAG?

Retrieval-Augmented Generation (RAG) markiert einen innovativen Fortschritt in der Künstlichen Intelligenz (KI), besonders hervorgehoben durch seinen Nutzen in der Geschäftswelt. Im Gegensatz zu traditionellen KI-basierten Chat-Systemen, kombinieren RAG-Systeme Textgenerierung mit der Fähigkeit, relevante Informationen aus externen Datenquellen zu extrahieren. Sie nutzen ein Large Language Model (LLM), das auf einer Vielzahl von Texten trainiert wurde, um komplexe Anfragen zu verstehen und Antworten in natürlicher Sprache zu generieren. Diese Technologie ermöglicht es RAG-Systemen, aktuelle Daten und Erkenntnisse zu berücksichtigen, was besonders in Wissensbereichen wie beispielsweise Nachhaltigkeit in der Immobilien- oder Finanzbranche von Vorteil ist.

Effektive Nutzung von Geschäftsdaten in RAG-Systemen

Die besondere Stärke von RAG-Systemen liegt in ihrer Fähigkeit, sowohl strukturierte als auch unstrukturierte Daten effektiv zu nutzen. Sie können spezifische Informationen aus strukturierten Datenquellen wie Datenbanken oder Tabellen extrahieren und gleichzeitig unstrukturierte Daten aus Berichten, E-Mails oder Webinhalten verarbeiten. Diese vielseitige Verarbeitungskapazität ermöglicht es RAG-Systemen, ein breites Spektrum an Geschäftsdaten für fundierte Entscheidungen und Analysen heranzuziehen. Zum Beispiel kann ein RAG-System, das auf bestehenden Texten trainiert wurde, neue Daten zu Energieverbrauch und Luftqualität einbeziehen, um präzise Empfehlungen für umweltfreundliche Bauprojekte oder Investitionen zu liefern.

Trend 2: Multimodalität von Modellen

Was bedeutet Multimodalität?

Multimodale Modelle sind eine Art KI, die unterschiedliche Datentypen wie Text, Bilder und Audio verarbeiten und verstehen kann. Sie sind darauf ausgelegt, Informationen aus diesen verschiedenen Datentypen zu integrieren, um komplexe Aufgaben durchzuführen, wie beispielsweise das Erzeugen von Bildern aus Textbeschreibungen oder das Beantworten von Fragen basierend auf einer Kombination von Text und Bildern. Dadurch können sie eine breitere Palette von Eingaben und Anwendungen bewältigen als Modelle, die auf einen einzigen Datentyp beschränkt sind.

Welche Vorteile bringen Multimodale Modelle?

Für Nutzer:innen können diese Art von Modellen sehr hilfreich sein, da sie verschiedene Anforderungen in einer einzigen Anwendung abdecken können. Was Modelle wie Gemini (Google) oder GPT 4.0 (openAI) bereits heute können, ist beispielsweise mathematische Fragestellungen auf Bildern zu erkennen und den Nutzer: innen eine brauchbare Antwort zu liefern:

Auf dem Bild links ist der “Prompt” zu sehen – also die Problemstellung. Der Prompt zeigt eine Lösung von einer Physikaufgabe. Rechts sieht man die Antwort des Modells und wie das Modell (hier Gemini) argumentiert. Das Modell erkennt, dass die Aufgabe falsch gelöst wurde und zeigt einen korrekten Lösungsweg auf.

Trend 3: KI-Modelle werden kleiner und Anwendungen bewegen sich in Richtung Smartphone

Übergang zu Smartphones

Die stetige Weiterentwicklung der Künstlichen Intelligenz führt zu einem signifikanten Trend: der Anpassung und Verkleinerung von KI-Modellen für den Einsatz auf Smartphones. In einer Zeit, in der Smartphones eine zentrale Rolle in der Organisation des Privat- und Geschäftslebens vieler Menschen spielen, gewinnt diese Entwicklung an Bedeutung. Die Nutzung von KI-Modellen auf Smartphones verbessert nicht nur die Benutzerfreundlichkeit, sondern erweitert auch die Funktionalität verschiedenster Anwendungen, wie KI-gestützte Bild- und Videobearbeitung oder Assistenzsysteme. Ein weiterer wichtiger Aspekt dieser Entwicklung ist die Verbesserung der Privatsphäre: Durch leistungsfähige, lokal betriebene KI-Modelle müssen Nutzerdaten nicht mehr in die Cloud übertragen werden. Stattdessen können Daten direkt auf dem Smartphone von KI-Anwendungen verarbeitet werden, was das Risiko von Datenlecks minimiert und den Datenschutz der Nutzer:innen verstärkt.

Die Herausforderung der Anpassung auf Smartphones

Die Anpassung komplexer KI-Modelle, wie beispielsweise GPT-4, auf Smartphones ist eine technische Herausforderung. Diese Modelle, die derzeit auf leistungsstarken Servern laufen, müssen für den Einsatz auf den begrenzten Ressourcen eines Smartphones deutlich verkleinert werden. Dies betrifft sowohl die Speichergrösse als auch die Verarbeitungskapazität. Techniken wie Modellpruning, bei den unwichtigen Teilen der neuronalen Netze entfernt werden, um sie effizienter zu machen, und Wissensdestillation könnten dabei helfen, die Grösse der Modelle zu reduzieren, ohne ihre Leistungsfähigkeit wesentlich zu beeinträchtigen. Ein weiterer Trend ist derzeit die Weiterentwicklung von Smartphonechips, einschliesslich der Integration spezialisierter neuronaler Verarbeitungseinheiten (NPUs), die speziell für die effiziente Ausführung von KI-Aufgaben entwickelt wurden.

Diese Trends deuten darauf hin, dass KI-Technologien in unserem täglichen Leben und in der Arbeitswelt immer präsenter werden. Mit der fortschreitenden Entwicklung dieser Systeme zeichnet sich ein Bild ab, in dem ihre Anwendung nahtloser, intuitiver und effizienter wird.