Warum Ihre neue KI-Unterstützung eigentlich nur ein sehr belesener Papagei ist

Warum in der Bezeichnung „KI“ ein Etikettenschwindel steckt und wie Sie mit realistischen Erwartungen das Maximum aus dem mächtigen Tool herausholen. 


Warum Ihre neue KI-Unterstützung eigentlich nur ein sehr belesener Papagei ist

Oder: Warum „KI“ technisch ein falscher Begriff ist, der uns psychologisch in die Irre führt, falsche Erwartungen weckt und uns in ein rostiges Messer laufen lässt – und wie wir das verhindern können.

Beginnen wir mit einer kleinen Begriffsklärung, die Sie jetzt vielleicht ernüchtert, Ihnen aber auf lange Sicht viel Frust ersparen wird: Was Sie als „KI“ in Ihr Team geholt haben, ist technisch korrekt bezeichnet ein „Large Language Model“ (LLM).

Die gute Nachricht: Ja, dieses LLM kann Ihnen dabei helfen, Ihren nächsten Kongress zu planen, Patientenbroschüren zu texten oder Präsentationen zu erstellen. Die schlechte Nachricht: Sie werden trotzdem nicht früher Feierabend haben. Denn was wir landläufig „Künstliche Intelligenz“ nennen, ist etwa so intelligent wie ein Papagei mit Photoshop-Kenntnissen – nur deutlich höflicher. Die Namensgebung sorgt für eine frustrierend große Lücke zwischen Erwartung und Realität und sorgt dafür, dass wir eine durchaus faszinierende Technik und ein tolles Tool in seiner Leistung völlig überbewerten. Ich würde gerne schreiben: „Es ist, als würden wir von jemandem erwarten, einen neurochirurgischen Eingriff vorzunehmen, nur weil er alles über Neurochirurgie gelesen hat.“ – doch selbst das wäre übertrieben. Denn wie der menschliche Geist das Neuro-Wissen verarbeiten würde, wäre immer noch mehr als das, was die „KI“ leisten kann.

Der große Etikettenschwindel

„Künstliche Intelligenz“ suggeriert ein System, das versteht, denkt, kreative Lösungen entwickelt und argument- und evidenzbasierte Entscheidungen trifft. Von etwas, das „Intelligenz“ im Namen trägt, erwarten Menschen, dass es Probleme erkennt, die noch niemand gesehen hat, innovative Ansätze vorschlägt oder die perfekte Kommunikationsstrategie für schwierige Zielgruppen entwickelt. Kurz: Sie erwarten ein digitales Gehirn, das wie erfahrene, gut ausgebildete Kolleg:innen mitdenkt.

Die Realität hinter ChatGPT und Co ist jedoch eine völlig andere: Was als KI verkauft wird, ist in Wahrheit ein sogenanntes Large Language Model. Ein hochentwickeltes Wortvorhersage-System – ein statistischer Papagei, wenn Sie so wollen. Es wurde auf Millionen von Texten trainiert und hat dabei gelernt, welche Wörter mit welcher Wahrscheinlichkeit aufeinander folgen. Wenn Sie fragen „Wie erkläre ich Patient:innen Diabetes?“, durchforstet es weder sein „Verständnis“ von Diabetes noch von Patientenkommunikation. Stattdessen berechnet es: In ähnlichen Kontexten verwendeten Menschen meist Begriffe wie „Blutzucker“, „Insulin“, „Lebensstil“ – also generiere ich einen Text mit genau diesen Mustern. Copilot, ChatGPT, Claude und alle anderen vergleichbaren Systeme reihen die Wörter hintereinander, die mit der größten Wahrscheinlichkeit von Menschen in diesem Kontext hintereinander verwendet wurden.

Das Verblüffende: Diese statistische Mustererkennung funktioniert so gut, dass das Ergebnis wie echtes Verständnis wirkt. Aber es ist nur eine sehr elegante Illusion. Wenn in den Trainingsdaten hunderte Artikel über Patientenkommunikation bei Diabetes standen, klingt die Antwort kompetent und hilfreich. Standen dort jedoch mehrheitlich oberflächliche oder sogar fehlerhafte Texte, reproduziert das LLM (was wir KI nennen) diese Muster – ohne zu „wissen“, dass sie problematisch sind. Es „denkt“ nicht, es rechnet Wahrscheinlichkeiten aus. Es analysiert statistische Muster und generiert Text, der ähnlich klingt wie andere Texte im selben Kontext.

Der Unterschied noch mal deutlicher: Echte Intelligenz, echtes Wissen und Verstehen existieren unabhängig von Sprache. Wissen ist ein komplexes Konstrukt von verschiedenen Konzepten und ihren Verbindungen zueinander. Wörter dienen „nur“ dazu, Wissen zu verbalisieren – hätten wir keine Sprache und keine Worte, könnten wir dennoch Wissen über Demonstration und Nachahmung weitergeben und weiterentwickeln. Die KI, die eigentlich nur ein LLM ist, kann dies nicht. Sie weiß nicht, sie versteht nicht, sie denkt nicht – sie sagt vorher, welches Wort als nächstes in den Satz gehört.

Das klingt unspektakulär? Ist es irgendwie auch. Und genau deshalb funktioniert es so gut – und scheitert an so vorhersagbaren Stellen. Denn wo keine Muster existieren oder wo echtes Verstehen oder echte Kreativität nötig wären, versagt das System absolut zuverlässig.

Die Kontext-Relevanz oder warum „Prompt Engineering“ die neue Königsdisziplin ist

Dies impliziert einen der großen Fallstricke von KI-generierten Texten: Wenn der Kontext nicht klar genug benannt ist, kann das LLM die relevanten Wörter nur bedingt vorhersagen. Dies ist relativ unkritisch, wenn Sie vom Fach sind und wissen, wie das Ergebnis aussehen muss. Extrem kritisch ist es jedoch, wenn eben dies nicht der Fall ist und das LLM seine Antwort in die falsche Richtung generiert. Zu jedem Thema gibt es unzählige Kontexte, Rahmenbedingungen, Sender und Empfänger. Ein zugegeben konstruiertes Beispiel: Wenn Diabetolog:innen die KI nach Diabetes fragen und eine Antwort zu Typ 2 bekommen, können sie sofort erkennen und korrigieren, wenn die KI zu Typ 1 hätte antworten sollen. Ein Laie kann dies nicht. Und leider kann man sich nicht darauf verlassen, dass das LLM die User:innen in jedem Fall darauf aufmerksam macht, dass ihm Kontext fehlt.

Deshalb ist Prompt Engineering zur neuen Superkraft geworden. Ein guter Prompt, also die Anweisung für das LLM, umfasst alle relevanten Kontextaspekte: Wer ist Sender, wer Empfänger, um welches weitere und engere Thema geht es, was ist das Ziel, was der Umfang, was das finale Format, welche Aspekte sollen berücksichtigt werden, welche nicht, jattatajattatajattata. Je enger Sie den Kontext fassen – und damit die Basis, auf der das LLM seinen Text generiert –, desto höher ist die Wahrscheinlichkeit, dass die Wortvorhersage trifft, was sie benötigen.

Merken Sie was? Das Einbeziehen eines LLM zwingt Sie im Idealfall dazu, Ihre Aufgabe präziser zu denken – was zumindest nicht das schlechteste Training ist.

Die Studien-Halluzination

(… oder generell Halluzinationen – nur am Beispiel von Studien.) Die oft bemängelten „Halluzinationen“ von Large Language Models sind ebenfalls eine direkte Folge ihrer Funktionsweise:

Ein LLM generiert Text Wort für Wort basierend auf statistischen Wahrscheinlichkeiten. Wenn Sie z.B. nach einer Studie über ein bestimmtes Medikament fragen, „sieht“ die KI in ihren Trainingsdaten Muster wie:

  • „Die XY-Studie von Müller et al. (2019) zeigte …“
  • „In einer randomisierten Studie mit 1.200 Patienten …“
  • „Publiziert in NEJM, Band 381 …“

Das System hat gelernt: Nach „Die Studie von“ folgt meist ein Nachname, nach „et al.“ meist eine Jahreszahl in Klammern, nach „randomisiert“ oft Patientenzahlen. Wenn nun keine echte Studie in den Daten existiert, die exakt zu Ihrer Frage passt, konstruiert die KI trotzdem eine Antwort – mit absolut plausibel klingenden, aber frei erfundenen Namen, Jahreszahlen und Daten. Naja, nicht ganz frei erfunden – Sie können zumindest davon ausgehen, dass es die statistisch am häufigsten auftauchenden Kombinationen sind.

Das Perfide: Weil das System, das wir künstliche Intelligenz nennen, eben nur eine Wortvorhersagemaschine ist und nicht intelligent, „weiß“ es nicht, dass es die Studie nicht gibt und es sie gerade erfunden hat. Für das LLM ist „Müller et al. (2023)“ genauso valide wie „Schmidt et al. (2020)“ – beides folgt den gelernten Mustern. Es gibt kein internes „Faktencheck-System“, das sagt: „Moment, diese Studie existiert nicht!“ – auf Basis der statistischen Muster wäre sie halt theoretisch möglich.

Besonders problematisch wird es, wenn das LLM mehrere plausible Informationsfragmente kombiniert – echte Medikamentennamen mit erfundenen Studienergebnissen, reale Autorennamen mit falschen Publikationsdaten. Selbst für Fachexpert:innen ist dies nur noch durch eine Recherche in PubMed verifizierbar.

Für die Wissenschaft selbst, den wissenschaftlichen Diskurs und auch für recherchierende Laien ist das hochgefährlich. Wenn die KI selbstbewusst behaupte: „Die CLARITY-Studie bewies eine 40%ige Reduktion kardiovaskulärer Ereignisse“, klingt das überzeugend – auch wenn es komplett erfunden ist.

Wo LLMs glänzen (und wo sie grandios scheitern)

Die guten Nachrichten:

Content-Produktion wird spürbar effizienter. Erste(!) Entwürfe(!) für Patientenbroschüren, Variationen von Headlines, Übersetzungen zwischen Fachsprache und Patientensprache – alles kein Problem, solange die Grundmuster in den Trainingsdaten vorhanden sind. Ein LLM kann Ihnen in Sekunden zehn verschiedene Versionen desselben Textes liefern, perfekt für A/B-Testing oder unterschiedliche Zielgruppen.

Brainstorming bekommt einen echten Turbo. „Gib mir 20 kreative Headlines für unsere Osteoporose-Kampagne“ funktioniert wunderbar – auch wenn „kreativ“ hier bedeutet: statistisch seltener verwendete, aber trotzdem sinnvolle Wortkombinationen. Das System liefert Ihnen einen Ideenfundus, aus dem Sie die besten auswählen können.

Lästige Routineaufgaben werden elegant automatisiert. Zusammenfassungen von Studien (hier bitte Vorsicht! Es gibt bereits Fälle, in denen Artikel für den Menschen nicht sichtbar Anweisungen für die KI enthielten, den Inhalt aus Autorensicht „besser“ zusammenzufassen – dies verfälscht Ergebnisse und könnte zu einem ganz anderen Problem werden!), Strukturierung unsortierten Contents, Anpassung von Texten an verschiedene Formate – hier spielt das LLM seine Stärken voll aus. Es ist der perfekte Assistent für alle Aufgaben, bei denen es um das Reorganisieren und Umformulieren bereits vorhandener Informationen geht.

Die schlechten Nachrichten:

Strategische Entscheidungen, Innovationen und echte Kreativität bleiben menschliche Domäne. Ein LLM kann nicht entscheiden, ob Ihr Kongress-Publikum eher auf emotionale Patientengeschichten oder harte Studiendaten anspringt. Es kennt nicht die unausgesprochenen Sorgen der Hausärzt:innen in Ihrer Region oder die politischen Strömungen, die gerade die Fachverbände bewegen. Diese Art von kontextuellem Verstehen erfordert echte Intelligenz, Erfahrung und Intuition.

Zielgruppen-Empathie existiert schlicht nicht. Das System weiß zwar, dass Hausärzt:innen andere Texte bekommen als Fachärzt:innen – aber nur, weil das in den Trainingsdaten so markiert war. Es versteht nicht, warum Hausärzt:innen andere Informationsbedürfnisse haben als spezialisierte Diabetolog:innen. Es kann die Muster reproduzieren, aber nicht die dahinterliegenden menschlichen Bedürfnisse antizipieren.

Compliance und rechtliche Feinheiten werden zur Hochrisiko-Zone! Wie oben beschrieben „halluzinieren“ LLMs gerne mal Studienreferenzen, erfinden Statistiken oder machen unbelegte Claims – und das mit derselben Selbstverständlichkeit, mit der sie korrekte Informationen liefern. In einer regulierten Branche wie der Pharmazie kann das richtig unangenehm werden.

Der Realitätscheck für Ihren Arbeitsalltag

LLMs sind fantastische Produktivitäts-Booster, aber sie sind Werkzeuge, keine Kolleg:innen. Um immer auf dem Boden der Tatsachen zu bleiben und von dem System keine Resultate zu erwarten die es nicht liefern kann (auch wenn es so klingen könnte), stellen Sie sich vor, Sie hätten eine Assistenz, die:

  • nie müde wird und immer höflich ist,
  • alles gelesen hat, was je geschrieben wurde,
  • aber keine Ahnung hat, was Ihre Kund:innen wirklich bewegt
  • und gelegentlich völlig selbstbewusst kompletten Unsinn erzählt.

Genau das haben Sie mit einem LLM. Nutzen Sie es als das, was es ist: ein faszinierendes und mächtiges Schreibwerkzeug, das Ihnen die Fleißarbeit abnimmt – aber nicht das Denken.

Fazit: Mehr Ehrlichkeit, weniger Hype

Wenn wir LLM als KI bezeichnen, gehen wir zum einen sehr inflationär und unbedacht mit dem Wort Intelligenz um. Zum anderen aber wecken wir auch Erwartungen, die die Systeme nicht erfüllen und werden blinder für die Fehler, die LLMs machen. Viele Fehler und „Halluzinationen“ sind vorhersehbar und könnten abgefangen werden, wären wir uns nur bewusster, wie die Systeme arbeiten und über welche Klippen sie springen.

Wir brauchen einen professionelleren und „realistischeren“ Umgang mit einem neuen Werkzeug. Large Language Models können insbesondere die Kommunikationsarbeit erheblich effizienter machen. Das entbindet uns aber nicht davon, ihre Funktionsweise und Grenzen zu kennen und einzubeziehen.

Investieren Sie in Prompt-Engineering-Skills, etablieren Sie Qualitätskontrolle-Prozesse, und vergessen Sie nie: Am Ende des Tages müssen Sie noch immer wissen, was Sie eigentlich sagen wollen. Das kann Ihnen kein LLM abnehmen – zum Glück. Denn seien wir ehrlich: Wer will schon in einer Welt leben, in der auch noch die Kommunikation vollautomatisiert ist?

Und wenn Sie Unterstützung brauchen, auf die Sie sich verlassen können und die neben Inhalt und Konzept auch Organisation, Moderation und Schnittchen kann, wenden Sie sich einfach an uns!





Zurück zur Übersicht
Zum ersten Inhaltsabschnitt