Modelle der künstlichen Intelligenz (KI) für die Biologie stützen sich stark auf große Mengen biologischer Daten, einschließlich genetischer Sequenzen und Krankheitserregereigenschaften. Doch sollen diese Informationen allgemein zugänglich sein und wie kann ihre legitime Nutzung sichergestellt werden?

Mehr als 100 Forscher haben gewarnt, dass der uneingeschränkte Zugriff auf bestimmte biologische Datensätze es KI-Systemen ermöglichen könnte, gefährliche Viren zu entwickeln oder zu verbessern, und fordern stärkere Schutzmaßnahmen zur Verhinderung von Missbrauch.

In einem offenen Brief argumentieren Forscher führender Institutionen, darunter der Johns Hopkins University, der University of Oxford, der Fordham University und der Stanford University, dass offen zugängliche wissenschaftliche Daten zwar die Entdeckung beschleunigt haben, eine kleine Teilmenge neuer biologischer Daten jedoch bei Missbrauch Risiken für die Biosicherheit birgt.

„Bei der Verwaltung biologischer Daten steht viel auf dem Spiel, da KI-Modelle dazu beitragen könnten, schwere biologische Bedrohungen zu schaffen“, schreiben die Autoren.

In der Biologie verwendete KI-Modelle können Mutationen vorhersagen, Muster identifizieren und übertragbarere Varianten pandemischer Krankheitserreger erzeugen.

Die Autoren beschreiben dies als eine „bedenkliche Fähigkeit“, die die Entstehung übertragbarer biologischer Krankheitserreger beschleunigen und vereinfachen könnte, die zu menschlichen Pandemien oder ähnlichen Ereignissen bei Tieren, Pflanzen oder der Umwelt führen können.

Biologische Daten sollten im Allgemeinen offen verfügbar sein, betonten die Forscher, aber „in Bezug auf Krankheitserregerdaten“ seien strengere Sicherheitskontrollen erforderlich.

„Unser Fokus liegt auf der Definition und Verwaltung der besorgniserregendsten Datensätze, bevor sie KI-Entwicklern allgemein zur Verfügung stehen“, schrieben sie in dem Papier und schlugen einen neuen Rahmen zur Regulierung des Zugriffs vor.

„In einer Zeit, die von weltweit entwickelten offenen biologischen KI-Modellen dominiert wird, könnte die Beschränkung des Zugriffs auf sensible Krankheitserregerdaten auf legitime Forscher einer der vielversprechendsten Wege zur Risikominderung sein“, sagte Moritz Hanke, Mitautor des Briefes von der Johns Hopkins University.

Was Entwickler tun

Derzeit gibt es keinen universellen Rahmen, der diese Datensätze regelt. Während einige Entwickler risikoreiche Daten freiwillig ausschließen, argumentieren Forscher, dass klare und einheitliche Regeln für alle gelten sollten.

Entwickler führender biologischer KI-Modelle, Evo, erstellt von Forschern des Arc Institute, Stanford und TogetherAI, und ESM3 von EvolutionaryScale, haben bestimmte Virussequenzen aus ihren Trainingsdaten zurückgehalten.

Im Februar 2025 gab das Team von EVO 2 bekannt, dass es Krankheitserreger, die Menschen und andere komplexe Organismen infizieren, aus ethischen und sicherheitstechnischen Gründen aus seinen Datensätzen ausgeschlossen habe, um „der Verwendung von Evo für die Entwicklung von Biowaffen vorzubeugen“.

EVO 2 ist ein Open-Source-KI-Modell für die Biologie, das die Auswirkungen von DNA-Mutationen vorhersagen, neue Genome entwerfen und genetische Codemuster aufdecken kann.

„Im Moment gibt es keine von Experten unterstützten Leitlinien dazu, welche Daten bedeutende Risiken darstellen, so dass einige Pionierentwickler ihre beste Vermutung anstellen und virale Daten freiwillig aus dem Training ausschließen können“, schrieb Studienautor Jassi Panu, Mitautor des Briefes, auf LinkedIn.

Verschiedene Arten riskanter Daten

Die Autoren weisen darauf hin, dass der vorgeschlagene Rahmen nur für einen kleinen Teil der biologischen Datensätze gilt.

Es führt einen fünfstufigen Biosecurity Data Level (BDL) ein, um Krankheitserregerdaten zu kategorisieren und Daten nach „Risiko“-Level zu klassifizieren, basierend auf ihrem Potenzial, KI-Systeme in die Lage zu versetzen, allgemeine Virusmuster und biologische Bedrohungen für Tiere und Menschen zu lernen. Es beinhaltet:

BDL-0: Alltagsbiologische Daten. Es sollte keine Einschränkungen geben und kann frei geteilt werden.

BLD-1: Grundlegende virale Bausteine, wie zum Beispiel genetische Sequenzen. Es sind keine großen Sicherheitskontrollen erforderlich, aber Anmeldung und Zugriff sollten überwacht werden.

BLD-2: Daten zu Merkmalen tierischer Viren wie das Springen einer Art oder das Überleben außerhalb des Wirts.

BLD-3: Daten zu Eigenschaften menschlicher Viren, wie Übertragbarkeit, Symptome und Impfresistenz.

BLD-4: Verbesserte menschliche Viren, z. B. Mutationen des COVID-19-Virus, die es ansteckender machen. Für diese Kategorie gelten die strengsten Beschränkungen.

Gewährleistung eines sicheren Zugangs

Um einen sicheren Zugang zu gewährleisten, werden in dem Schreiben konkrete technische Hilfsmittel gefordert, die es Datenanbietern ermöglichen, legitime Nutzer zu überprüfen und Missbrauch zu verfolgen.

Zu den vorgeschlagenen Tools gehören Wasserzeichen – das Einbetten versteckter, eindeutiger Identifikatoren in Datensätze, um Lecks leicht zu verfolgen –, Datenherkunft und Prüfprotokolle, die Zugriffe und Änderungen mit sicheren Signaturen aufzeichnen, sowie Verhaltensbiometrie, mit der einzigartige Benutzerinteraktionsmuster verfolgt werden können.

Die Forscher argumentieren, dass es von entscheidender Bedeutung sein wird, das richtige Gleichgewicht zwischen Offenheit und notwendigen Sicherheitsbeschränkungen für Hochrisikodaten zu finden, da KI-Systeme immer leistungsfähiger und allgemeiner verfügbar werden.

Share.
Exit mobile version