In der heutigen Welt wird unser Auge täglich mit einer fast unüberschaubaren Menge an Daten konfrontiert. Und jedes Jahr wachsen die Zahlen in einem immer höheren Tempo. Wie wird es also in Zukunft möglich sein, diese riesigen Mengen zu verarbeiten? Mobius Labs hat sich auf die Entwicklung fortschrittlicher multimodaler KI spezialisiert, die es Maschinen ermöglicht, visuelle, akustische und sprachliche Daten genau wie Menschen zu sehen, zu verstehen und zu interpretieren. Wir sprachen mit CEO Dr. Appu Shaji, um tiefer in die Welt der Multimodalität einzutauchen, ihr Potenzial zur Revolutionierung von Branchen und zur Verbesserung der Nutzererfahrung zu erkunden und zu erfahren, was nötig ist, um Isaac Asimovs Fiktion Wirklichkeit werden zu lassen.
Das menschliche Verständnis und die menschliche Wahrnehmung sind multimodal und ergeben sich aus dem Zusammenspiel von Sehen, Hören und Sprache. Als ich zum Beispiel Isaac Asimovs Bücher las, gab es Roboter, die alle Aufgaben erledigten, die auch Menschen erledigen. Die Vorstellung, dass wir eine Software entwickeln könnten, die zu einem solchen Verständnis fähig ist, hat mich immer fasziniert, und das scheint jetzt Realität zu sein, statt nur Science-Fiction. Allerdings schien die frühe KI auf Unternehmen mit großen Investitionsbudgets beschränkt zu sein. Wir sind auf dem Weg, sie zu demokratisieren, indem wir eine KI entwickeln, die äußerst effizient zu betreiben und einzusetzen ist und zudem als Open Source zur Verfügung steht. Unser Ziel ist es, ein wichtiger Akteur im Bereich der KI-Infrastruktur auf Server- und Geräteseite zu werden.
Das ist der alte Begriff, den wir verwendet haben. Wir begannen als Unternehmen für Computer Vision und erkannten, dass Computer in vielen Bereichen dem Menschen überlegen sind (z. B. wenn es darum geht, Milliarden von Bildern konsistent zu klassifizieren oder zu erkennen). Wir haben jedoch unsere Bemühungen auf andere Modalitäten wie Audio und Sprache ausgeweitet.
Ein Kernaspekt bleibt gleich: Wir produzieren, verarbeiten und nutzen eine riesige Datenflut, die es dem Menschen unmöglich macht, sie durchsuchbar, empfehlenswert oder verwertbar zu machen. Hier kommen die übermenschlichen Fähigkeiten von Maschinen ins Spiel.
Dafür gibt es zwei Hauptgründe, einen strukturellen/emotionalen und einen strategischen/kommerziellen. Was die KI-Forschung und -Entwicklung so einzigartig macht, ist die Tatsache, dass sie aus einer grundlegenden akademischen Arbeit hervorgegangen ist, bei der Offenheit und Reproduzierbarkeit zentrale Grundsätze sind. Mobius Labs, das aus einigen hochkarätigen Forschern im Gründungsteam besteht, hat diese Philosophie in sich verankert. Uns gefällt die demokratische und leistungsorientierte Natur der Welt, in der Ideen ausgetauscht und vor allen anderen bewiesen werden. Wir sind immer noch sehr leidenschaftlich und engagiert dabei.
„Unser Ziel ist es, ein wichtiger Akteur im Bereich der KI-Infrastruktur auf der Server- und Geräteseite zu werden."
Praktischer und strategischer ist jedoch die Art und Weise, wie die KI-Landschaft aufgebaut ist. Noch vor einem Jahr waren Closed-Source-KI-Systeme wie ChatGPT ihren Open-Source-Gegenstücken meilenweit voraus. Die Lücke schließt sich jedoch schnell und ist fast nicht mehr vorhanden.
In einer solchen Welt birgt Open-Source-Software eine Menge Potenzial und Endkundenvorteile, wie Transparenz, keine Anbieterbindung, Individualisierbarkeit und volle Eigenverantwortung.
Talent ist auch ein wichtiger Treiber für Kerninnovationen in der KI. Die Einführung von OSS ermöglichte uns die freie Zusammenarbeit. Wir arbeiten jetzt mit Menschen auf der ganzen Welt zusammen (z. B. mit Ingenieuren/Wissenschaftlern von Meta, Hugging Face, Answer.AI und vielen anderen Projekten). Als kleines Startup können wir nicht davon träumen, mit großen proprietären Lösungen zu konkurrieren, aber als OSS-Community können wir das definitiv!
Außerdem ist die Art unserer Arbeit enorm wichtig für die Zukunft der KI-Berechnungen. Insbesondere unsere Arbeit daran, KI-Berechnungen schneller, kleiner und billiger zu machen. Das ist wirklich eine Richtung und ein Schritt in Richtung Demokratisierung der KI für Menschen, die nicht viel Geld zur Verfügung haben.
Wir glauben, dass der KI-Enterprise-Stack (B2B) von Betriebssystemen beherrscht werden wird. Wir sehen eine ähnliche Dynamik wie bei Linux/Microsoft. Als Linux in den späten 90er Jahren aufkam, hatte es noch seine Ecken und Kanten, aber durch die Arbeit der Community erreichte es über 80 % des serverseitigen Marktes und etwa 50 % der Mobiltelefone (Android). Wir sind ziemlich zuversichtlich, dass die Gewinner im KI-Unternehmensbereich Open-Source-Software sein werden.
Ja, Datenschutz ist ein zentraler Wert, an den wir uns halten. Die Philosophie lautet "privacy by design". Wir erreichen dies, indem wir den Code einfach an den Nutzer liefern (und nicht umgekehrt, wo Dritte die Daten auf ihre Server bringen). Wir sehen niemals Kundendaten oder haben Zugang zu ihnen, es sei denn, unsere Kunden bitten uns ausdrücklich darum. Vor allem KI-Firmen haben versucht, Nutzer zu ihrem Produkt zu machen, indem sie Modelle auf Kunden-/Nutzerdaten trainierten. Wir trainieren unsere Modelle nur auf öffentlichen Datensätzen, für die wir eine entsprechende Lizenz haben, und entwickeln Tools, die sich mit einer sehr begrenzten Anzahl von Datensätzen an einen bestimmten Anwendungsfall anpassen lassen. Dies ist auch ein Bereich, in dem das Unternehmen aktiv forscht.
Dies ist Teil einer alten Produktlinie, die viel mit "few-shot learning" gearbeitet hat, gekoppelt mit einem no-code KI-Trainingstool, mit dem Nutzer ihre eigenen Modelle trainieren können. Mit dem generativen KI-Stack hat sich dies jedoch ein wenig geändert. Wir geben derzeit Informationen darüber, wie man Modelle fein abstimmt, und als Business Case stimmen wir Modelle für unsere Kunden ab.
Eine der größten Herausforderungen aktueller KI-Lösungen, wenn nicht sogar die größte Herausforderung, ist die Berechnung. Der Energiebedarf ist so hoch, dass es schwierig sein könnte, Energie zu erzeugen. Wir müssen also Wege finden, um die Modelle effizienter zu machen. Die Arbeit an der Quantisierung ist ein Schritt in diese Richtung.
Zur Erklärung: Die meisten dieser Transformatormodelle beinhalten eine Menge Matrixmultiplikationen mit Gleitkommazahlen. Wir können jedoch die Dezimalstellen entfernen, so dass weniger Berechnungen erforderlich sind (d. h. 3*100 ist viel einfacher zu berechnen als 3.1415926535 * 100.4123414). Die extreme Version ist, wenn alle Zahlen Binärzahlen sind, d. h. 1-Bit (0s und 1s). Normalerweise benötigen alle LLMs 16 Bits, um eine Zahl zu speichern, und 1 Bit ist 16 Mal kleiner. Aber interessanterweise sind Multiplikationen mit Binärzahlen nur Additionen (was 70 Mal schneller ist).
Wir müssen noch weiter forschen, um mit 1-Bit-Modellen die gleiche Genauigkeit wie mit 16-Bit-Modellen zu erreichen, aber es ist ein wichtiger Schritt in die richtige Richtung. Zum Beispiel kommen unsere 2-Bit- bis 4-Bit-Modelle der vollen Genauigkeit sehr nahe.
Berlin ist aufgrund seiner einzigartigen Mischung aus Ideen und Gedanken ein interessanter Ort. Am faszinierendsten finde ich den Austausch mit den Kreativen (Künstlern, Fotografen, DJs) und nicht mit den Tech-Buildern. Da KI und menschliches Verhalten eng miteinander verbunden sind, sind diese Interaktionen von größter Bedeutung und machen unser Denken sehr multidimensional. Es ist auch eine recht junge Stadt, in der Menschen aus der ganzen Welt leben. Außerdem befindet sich unser Büro auf dem Merantix AI Campus, der viele interessante KI-Unternehmen und eine lebendige Gemeinschaft beherbergt.
Die verkörperte KI wird sehr interessant werden (wie die Roboter von Isaac Asimov, über die ich gesprochen habe). Die KI wird die Welt wahrnehmen, auf seltsame Situationen stoßen und Lösungen für diese finden. Wir werden starke Modelle haben, die ständig lernen und auf einer Vielzahl von Geräten laufen können.
Vielen Dank für das Gespräch.
Das Interview führten unsere Kollegen von #ai_berlin am 20. Juni 2024.
Die Airport Region Berlin Brandenburg spielt eine zentrale Rolle in der Entwicklung und Anwendung von Künstlicher Intelligenz (KI) und Machine Learning. Mit rund 33% der deutschlandweit KI-relevanten Unternehmen in der Region hat sich Berlin als führendes Zentrum etabliert. Hier treffen hochkarätige Forschungseinrichtungen, Universitäten und innovative Startups aufeinander, gefördert durch zahlreiche Landesinitiativen und Accelerator-Programme. Diese Synergien treiben bahnbrechende Entwicklungen voran, insbesondere in den Bereichen Business Intelligence, Health Intelligence und Mobility. Die wirtschaftlichen und technologischen Fortschritte in Berlin Brandenburg unterstreichen die Bedeutung der Region als Vorreiter im KI-Sektor.
Für weitere Informationen zu den Aktivitäten der Branchen-Cluster und weiterer Wachstumsbranchen der Region sowie zur Geschäfts- und Technologieentwicklung für Unternehmen, Investoren und wissenschaftliche Einrichtungen wenden Sie sich gern an