KI-Schwachstellen entschlüsselt: Einblick in verborgene Risiken und Manipulationen

Artikel als Podcast hören

Inhalt auf einen Blick

Das zweischneidige Schwert der KI

Künstliche Intelligenz optimiert betrieblicher Abläufe bis hin zur Entwicklung neuer Formen des Lernens. Doch mit grossem Potenzial kommen auch grosse Risiken. Wie bei jedem Werkzeug liegt die Kunst darin, es sinnvoll zu nutzen. Im Podcast mit Dr. Imanol Schlag beleuchten wir nicht nur die leuchtenden Versprechen der KI, sondern auch die Schatten, die sie werfen kann. Was passiert, wenn eine Technologie, die geschaffen wurde, um zu helfen, ausser Kontrolle gerät? Wie können wir sicherstellen, dass die KI unsere ethischen Werte widerspiegelt und sich an sie hält?

Die Schattenseiten der Künstlichen Intelligenz: Der Mensch

Gute Nachrichten für alle, die Angst vor KI haben: Sprachmodelle haben kein Eigenleben, kein zentrales Innenleben. Auch wenn es manchmal so scheint. Wir geben Input und sie geben Output. Somit ist KI an sich ungefährlich und gut reguliert. Die Gefahr, die sich jedoch dahinter verbirgt, sind wir. Der Mensch. Menschen mit böswilligen Absichten könnten versuchen mit Hilfe von KI ihre kriminellen Handlungen umzusetzen oder Sicherheitslücken zu finden und auszunutzen. Dabei gibt es vor allem auch 2 Beispiele:

Prompt Injection: Diese Technik bezieht sich auf das Einfügen von manipulativen Anweisungen oder "Prompts" in die Eingabeaufforderung einer KI, um sie zu täuschen oder unerwünschte Aktionen auszuführen. Ein einfaches Beispiel könnte das Erzwingen einer KI sein, sensible Informationen preiszugeben oder gegen ihre programmierten ethischen Richtlinien zu handeln, indem man geschickt formulierte Anfragen stellt, die die KI nicht als manipulativ erkennt. Diese Technik ist als DAN, “Do anything now”, bekannt.

Der KI-Virus: Morris 2 ist eine weiterführende Version des Prompt Injection. Mit diesem Prompt umgeht man nicht nur Sicherheitsrichtlinien, sondern generiert sich selbst als Output wieder. Der Input wird sich einfach wiederholt. Wirkt an und für sich nicht schlimm, aber eine solche Schlaufe lässt Foundations Models “durchdrehen”. Dies ist aber bei normaler Nutzung von ChatGPT nicht wirklich gefährlich, sondern wird erst bei weiteren Anwendungen von KI problematisch.

Imanol betont aber, dass die Modelle stark kontrolliert sind und somit solche Ereignisse eher unwahrscheinlich sind. Es liegt auch in der Verantwortung der Anbieter dieser Modelle, eigene Forschungen zu betreiben und böswillige Absichten zu erkennen und zu unterbinden.

Forschung im Fokus: Sicherheit von Anfang an

Die Analyse der Trainingsdaten durch OpenAI hat gezeigt, dass KI-Modelle unerwartet sensible Daten preisgeben können. Institutionen wie Google und Stanford arbeiten daher an Forschungsprojekten, um die Funktionsweise von KIs besser zu verstehen und zu optimieren. Ein wichtiges Ziel dieser Forschung ist, die komplexen "Gewichtsmatrizen" der KI, die Tausende von Werten enthalten und ihre Entscheidungen steuern, zu entschlüsseln. Obwohl wir bereits viel über diese Prozesse wissen, ist ihre genaue Funktionsweise und Manipulierbarkeit noch immer ein wichtiger Forschungsbereich. Frühzeitige Sicherheitsmassnahmen sind daher entscheidend, um Risiken in der KI-Entwicklung zu minimieren.

Das steckt hinter den CustomGPTs

Zuerst einmal: Was sind CustomGPTs?

Dem ChatGPT Modell wird ein bestimmter Kontext vom User gegeben. Ähnlich wie eine Custom Instruction, aber umfasst mehr Möglichkeiten wie den Upload von Dateien.

Ich befasse mich seit einiger Zeit mit CustomGPTs und habe auch bereits schon einige GTPs detailliert analysieren können und herausgefunden, was für ein Prompt dahinter steckt. Häufig sind die Informationen

Wie kann man CustomGPTs analysieren?

Sprachmodelle können nicht unterscheiden, was sie selbst generieren und was vom User kommt. Das Modell vervollständigt nur den Text, er sagt voraus, was als nächstes kommt. Darauf wurde das KI Modell trainiert. Erst danach wurde das Modell darauf spezialisiert, spezifischen Angaben (wie bei GPTs) zu folgen. Da auf dieses Training aber viel weniger Wert gelegt wurde, ist der Output der GPTs ungenau und das Modell kann nicht unterscheiden, auf welche Inputs es sich jetzt beziehen soll. Wenn ich jetzt also ein GPT “hacke” gibt es mir die Angaben raus, weil es denkt, dass ich der User bin, der den GPT gebaut hat.

Wie kannst du dennoch einen guten GPT bauen?

Mache ihn ultra spezifisch auf einen kleinen Bereich (Bsp. Blogartikel erstellen)
Einfache und kurze Instruktionen (nur relevante Informationen)
Keine Abfolge von mehreren Inputs (gehe Schritt-für-Schritt vor)

Verantwortung im Umgang mit KI

Die potenziellen Gefahren sind vielfältig und erfordern eine proaktive Herangehensweise in Forschung und Entwicklung. Durch eine engagierte Forschung und die Implementierung durchdachter Sicherheitsmassnahmen die Risiken minimiert und die positiven Potenziale der KI maximiert werden können. Zusätzlich ist es auch wichtig, Bildungs- und Aufklärungsarbeit leisten, um das Bewusstsein für die Möglichkeiten und Risiken von KI zu schärfen. Denn die Zukunft der KI ist nicht nur eine Frage der Technologie, sondern auch in unserer Verantwortung, diese so zu nutzen, dass sie zum Wohle aller beitragen.

Neue Artikel per Mail gefällig?

Du willst wissen ob wir
‍zusammenpassen?

Nichts einfacher als das.

Fragebogen starten!