Kyutai, das Laboratory co-gegründet von Xavier Niel und Iliad, hat eine neue Funktion für seine sprachbasierte KI-Methode Moshi vorgestellt. Diese neue Funktion wird MoshiVis genannt und ermöglicht der KI, Bilder zu analysieren und dabei ihre fähigkeiten im dialogischen Austausch beizubehalten.
MoshiVis ist eine open-source Technologie, die auf hochwertigen Daten trainiert wurde und ein integriertes Bilderkennungssystem verwendet, um visuelle Informationen in den sprachlichen Dialog zu integrieren. Es generiert dynamische Diskussionen über gezeigte Bilder mithilfe von simulierten Interaktionsmodellen.
Die KI-Methode MoshiVis nutzt eine reduzierte Anzahl an Audiodaten durch das Einbinden bestehender Texte und internen Monologs, was die Effizienz bei den Berechnungen erhöht. Dies führt zu einer präzisen und natürlichen Interaktion zwischen dem Benutzer und der KI.
Obwohl MoshiVis in einigen Tests aufgrund des Schwerpunkts auf eine flüssigere und natürlichere Kommunikation niedrigere klassische Bewertungen erzielt hat, bietet es neue Möglichkeiten für die Anwendung von Moshi in verschiedenen Bereichen. Der Zugang zu MoshiVis ist kostenlos und kann über das Websiteportal von Kyutai beantragt werden.