Hogyan tanítsuk a robotokat?

Egyre több kutató dolgozik azon, hogy olyan robotokat hozzon létre, amelyek sokféle valós élethelyzetben lehetnek az emberek segítségére, vagyis általános célúak, univerzálisak. Ehhez azonban nem lesz elég néhány előre meghatározott mozgás, folyamat elvégzése, hiszen már egy tányér felvétele is majdnem végtelenül komplikált mozzanat lehet, ha a tányér vagy maga a robot nem fix helyen található. A szakértők tanulékony robotok fejlesztésében látják a jövőt, olyan gépeket akarnak létrehozni, melyek tanulás révén válnak képessé a rájuk szabott feladatok rugalmas elvégezésére.

Középpontban a tanulás

A tanulás lényegében a tudás tapasztalás alapján történő bővítése. Ezen képesség megléte és jelentősége a kezdetektől fogva nyilvánvaló volt az emberek számára. A tanulás révén szándékosan gyújtottunk tüzet, a tapasztalás segítségével elkerültük a mérgező bogyókat. A tanulásra a legtöbb idegrendszerrel bíró állat képes valamilyen szinten, hiszen nélkülözhetetlen ahhoz, hogy a változékony világban is életképesek maradhassanak. Mivel a tanulás igen sokféleképpen jelenik meg az élővilágban nyugodtan mondhatjuk, hogy talán a legösszetettebb jelenségek egyike.

Még a legegyszerűbb puhatestűek is képesek tanulni, megváltoztatni egy ingerre adott válaszukat a korábbi események hatására. Klasszikus példája ennek a tengeri nyúl, ami a folyamatos ingerlés hatására egyre csekélyebb mértékben húzza be sérülékeny kopoltyúját, vagyis egyre kisebb mértékű védekező reakciót mutat, mondhatjuk, hogy megtanulja, nincs valódi veszély. Ugyanakkor azt is tanulásnak nevezzük, amit a diákok csinálnak, a tankönyv fölé hajolva, olvasva, néha a semmibe révedve mélyen elgondolkodva, vagy akár a kezeikkel, vagy a kezükbe akadó tárgyakkal imitálva az éppen megérteni kívánt jelenséget. Az, hogy a tanulás ennyire sokszínűen nyilvánul meg az élővilágban egyrészt nehezebbé teszi a megértését, másrészt viszont valamelyest meg is könnyíti a mesterséges intelligenciával foglalkozó kutatók dolgát, hiszen ők nagyobb víztestből meríthetnek, amikor tanulékony algoritmusokat akarnak létrehozni a robotjaik irányításához. Nem titok ugyanis, hogy a mesterséges intelligencia kutatása és az idegtudomány kéz a kézben haladnak együtt, hol az egyik inspirálja a másikat, hol a másik ihleti meg az egyiket.

Gépi tanulás

A tanulás tehát alapvetően szükséges a rugalmas viselkedéshez, így hamar nyilvánvalóvá vált, hogy egy valós környezetben működő mesterséges ágensnek is képesnek kell lennie a tanulásra. A mesterséges ágensek tanulásával foglalkozó területet gépi tanulásnak nevezzük, ez pedig manapság három különböző tanulási modellel operál. Ezek egyike a felügyelt tanulás, amit például a beszédfelismerésben és a gépi látásban hasznosítanak. A felügyelt tanulás során az algoritmust egy sor bemenet-kimenet párral látják el, ezzel tanítják, hogy milyen bemenetre, milyen kimenetet kell produkálnia. Például egy macskát ábrázoló képhez a „macska” címkét kell párosítania. A másik klasszikus megközelítés a felügyelet nélküli tanulás. Ebben az algoritmus nem kap előre megszabott kimeneteket, hanem a kapott adathalmazban lévő hasonlóságok és különbségek alapján képez csoportokat az adatban.

A robotok szempontjából azonban ezek a megközelítések nem igazán célravezetők, hiszen egy robot képes interakcióba lépni környezetével, és mondjuk mozdulatai révén megváltoztatni azt, vagyis az algoritmus által képzett kimenet hatással van a bemenetre. Ehhez a problémához sokkal ésszerűbb a megerősítéses tanulás megközelítését alkalmazni. Ez a megközelítés tulajdonképpen a viselkedéstudományból származik, ahol a kísérleti állatokat megerősítésekkel tanították. Bizonyos cselekvéseket jutalmaztak, így az állat egyre nagyobb valószínűséggel ismételte meg őket. Ebben az esetben az algoritmus minden helyzetet felmér és ahhoz egy jutalomértéket társít célja függvényében. Ezután kiválaszt egyet a lehetséges cselekvések közül, miáltal közelebb kerül a céljához, vagy éppen eltávolodik tőle. Ekkor újra felméri a helyzetet, és amennyiben közelebb került a célhoz, a helyzethez kapcsolt jutalomérték magasabb lesz, így legközelebb is jó eséllyel választ olyan cselekvést, ami ebbe a helyzetbe juttatja. A megerősítéses tanuláson alapuló algoritmusok például a liftek működését irányítják, vagy éppen a Go nevű játékban győzik le az embereket.

A megerősítéses tanulás lényege, hogy az akciók értékét kiértékeli az algoritmus, majd megjegyzi, hogy az adott helyzetben a cselekvés előnyös, amennyiben a kiértékelés során így találja (Forrás: mc.ai).

Hogyan tanuljanak a robotok?

Ahhoz azonban, hogy egy megerősítéses tanuláson alapuló algoritmus kivitelezhető módon irányíthassa az univerzális robotokat, egy sor követelménynek kellene megfelelnie. Nem csak hogy a munkába állásakor már képesnek kellene lennie néhány alapvető feladat elvégzésére, hanem gyorsan kellene megtanulnia néhány speciális dolgot is. Például elvárhatnánk, hogy rögtön fel tudjon porszívózni, és azt is, hogy hamar megtanulja, hogyan készítse el úgy a rántottát, ahogy mi szeretjük. A robotnak hatékonyan, akár egy próba után el kell sajátítania egy-egy új feladat elvégzését. Legyen elég, ha csak egyszer bemutatjuk neki a legjobb rántotta elkészítésének módját. A robotnak több helyzetben is képesnek kell lennie elvégezni ezt, vagyis általánosítania kell. Ne csak az otthoni konyhában, hanem akár a nyaralóban is legyen képes elkészíteni azt a rántottát. A tudásának reprezentálása legyen kompozícionális, vagyis álljon elemekből, hogy azokat új cselekvések elvégzése során is hasznosíthassa. Például legyen képes ugyanúgy fűszerezni a tükörtojást ahogy a rántottát anélkül, hogy erre külön megtanítjuk.

kép – robochef.png –

Ezekre viszont a napjainkban létező megerősítéses tanuláson alapuló algoritmusok sajnos még nem képesek. A szakértők szerint a megoldást az induktív elfogultság beépítése jelentheti. Ez tulajdonképpen azt jelenti, hogy az algoritmusnak hajlamosnak kell lennie arra, hogy bizonyos problémák esetén csak néhány környezeti változót vegyen figyelembe. Ha például rántottát készül csinálni, akkor ne foglalkozzon vele, hol vannak a kések és kanalak, csak a villákat keresse meg. Hasonló módon fejlesztik például az önvezető autókat is. A fékezés szükségességének megállapításához például csak a közvetlen közelben lévő járművekkel kell foglalkoznia, így beépítenek az ezt irányító algoritmusba egy olyan induktív elfogultságot, ami hajlamosítja arra, hogy csak a közeli autókat vegye figyelembe, amikor a fékezésről dönt.

De hogyan lehetne meghatározni, hogy milyen módon és mennyire legyen elfogult egy általános feladatokat ellátó robot? A kutatók erre már az úgynevezett meta-tanulásban látják a megoldást. Ennek az a lényege, hogy a robotok ismereteit két részre osztják. Az első rész az eddig is tárgyalt dolgokkal foglalkozik, ez az, ami révén a robot megtanulja elkészíteni a kedvenc rántottánkat. A másik viszont már az elsőnek szolgáltat paramétereket, vagyis ez tanítja tanulni a robotot. Ezekre az ismeretekre egy prototípus tehetne szert, amiből aztán kinyerik az elsajátított tudás szabályszerűségeit és a gyárban beépítenék az összes robotba. Ha a prototípus már megtanulta a rántottakészítést, kitapasztalta, hogy ahhoz nincs szükség késre vagy kanálra, az ismereteire építő robotok pedig már figyelembe sem veszik ezeket az eszközöket, ha a rántottakészítést tanulják. A meta-tanulás elméletének gyakorlatba való átültetésével már több kutatócsoport foglalkozik és noha vannak bíztató eredmények, egyelőre még távolinak tűnik a tényleges megoldás.

Egyes szakértők a meta-tanulást az evolúció folyamatához hasonlítják. Az evolúció során kiválasztódott az a típusú idegrendszer, ami egy adott élőlény számára lehetővé tette, hogy viselkedése rugalmas legyen, könnyen alkalmazkodjon a környezethez. A patkányok idegrendszere például képes arra, hogy az órákkal korábban megevett, rosszullétet okozó eledelt legközelebb már elkerülje. Az evolúció induktív elfogultsággal látta el az állatot: a rosszullétét csak kis eséllyel okozza az, hogy éppen egy társát pillantotta meg, vagy kölykei szagát érzi, sokkal nagyobb esély van rá, hogy a korábban megevett zöld valami felelős sorsáért, vagyis bizonyos ingereket figyelmen kívül hagy a tanulás során. Ha ilyen összetett tanulásra a robotok is képesekké válnak, akkor már tényleg közel lesz a pillanat, amikor megjelennek az univerzális robotok. Ezek a robotok egyszer talán a házvezetőtől, a hentesen át szinte minden munkakört képesek lehetnek majd betölteni. Mivel fognak majd foglalkozni az emberek egy ilyen jövőben?

Ez a cikkem az Élet és Tudomány 2020/37. számában jelent meg.

Forrás:

https://science.sciencemag.org/content/369/6506/915