Välj en sida

Microsoft har nu visat upp den multimodala stora språkmodellen Kosmos-1 som framgångsrikt ska kunna analysera innehållet i bilder, rapporterar Ars Technica.

Detta ska göra det möjligt för AI-modellen att lösa visuella pussel, känna igen text, förstå naturliga språkinstruktioner och även klara visuella IQ-test med en träffsäkerhet på mellan 22 och 26 procent (vilket är bättre än slumpen som är 17 procent för testen).

Kosmos-1 kan exempelvis se en bild på en matematisk beräkning och ge svaret, säga vilken hårstil en viss kvinna i en bild har och förklara varför en bild föreställande en katt som har en lapp med en målad glad munn framför nedre delen av sitt ansikte är rolig.

Kosmos-1 är multimodal, vilket innebär att den kan integrerar olika typer av indata i form av text, ljud, bilder och video. Något som Microsofts forskare anser är ett viktigt steg för att ta fram AI som kan utföra uppgifter på samma nivå som en människa.

Läs också: AI-drivna Bing läggs in i Windows 11

 

Läs mer