En grupp AI-forskare vid Google och Technische Universität Berlin har nu visat upp roboten Palm-E, som beskrivs som världens fysiskt största förkroppsligade visuella språkmodell (VLM). Genom att tolka och förstå både språklig och visuell information kan Palm-E utföra en rad olika uppgifter och utan att den behöver specialtränas för dem, rapporterar Ars Technica.
Ett exempel som forskarna ger är att Palm-E kan förstå kommandot ”Hämta rischipsen från lådan” varpå Palm-E kan generera en plan för hur det ska gå till och sedan sätta den i verket. Den kan även justera planen ifall störningsmoment skulle uppkomma under tiden.
Forskarna säger sig även ha observerat att Palm-E kan överföra de kunskaper och färdigheter den lärt sig från en uppgift till en annan uppgift och därmed prestera bättre jämfört med robotar som är designade för att utföra en specifik uppgift.
Palm-E kommer härnäst att börja testas för verkliga scenarion som hemautomatisering och industriarbete.