GPT-4 на OpenAI издържа теста на Тюринг

Изкуственият интелект GPT-4 на OpenAI премина теста на Тюринг, след като заблуди над половината от участниците, че е човек. Това е пробив в сферата, макар че разговорите са били едва по 5 минути, което според мнозина не е достатъчно.

Тестът, предложен от британския математик Алан Тюринг, е базиран на това дали машина може да мисли. Тъй като е сложно да се определи какво значи да мисли, Тюринг предлага алтернатива - дали компютърът може да заблуди отсрещната страна, че е човек. Това става с експеримент, при който доброволец говори със скрити за него събеседници - машина и реален човек. След това той трябва да определи кой от двамата е компютър. Ако не може, то значи способностите на машината са станали неотличими от човешките.

Изследователите Камерън Р. Джоунс и Бенджамин К. Берген решили да проведат теста на Тюринг с GPT-4 на OpenAI. За целта събрали 500 души. Направили 5-минутни разговори с истински човек, програмата ELIZA от 60-те години на миналия век, алгоритъма GPT-3,5 и по-новия GPT-4. Хората трябвало да определят дали са имали за събеседник човек, или машина. Оказва се, че в 54% от случаите GPT-4 е определян за човек. Резултатът на реалния събеседник е едва 67%.

Системата ELIZA е с най-нисък резултат - 22%. Алгоритъмът GPT-3.5 отбеляза също високите 50%. Смята се, че тестът на Тюринг е издържан, ако машината е заблудила над 50% от участниците.

Резултатът кара учените да се притеснят от напредъка в AI системите. По думите им широко разпространените социални и икономически последици са гарантирани.

Проучването е предизвикателство за бъдещото взаимодействие човек - машина, смятат авторите му. “ELIZA е ограничена до готови програмирани отговори. Това значително намалява възможностите ѝ. Тя може и да заблуди някого за пет минути, но след това ограниченията ѝ щяха да станат ясни. За разлика от нея големите езикови модели като GPT са безкрайно гъвкави, способни да синтезират отговори на широк спектър от теми и да се представят с различни личности и ценности. Освен това се самообучават. Това е огромна крачка напред от нещо, ръчно програмирано от нас”, коментира Нел Уотсън от Института за инженери по електротехника и електроника.

Според него хората в бъдеще ще станат параноични относно това с кого говорят, защото ще знаят, че от другата страна може и да не е човек.

“Нашите резултати предполагат, че в реалния свят хората може да не са в състояние надеждно да разберат дали говорят с човек, или с AI система”, каза пред Tech Xplore Камерън Джоунс, съавтор на доклада.

Интересното е, че самият тест на Тюринг всъщност не е показател за наличието на интелект, а за това да се имитира човешко поведение. Това е поредният път, когато той се прилага. Един от най-ранните и забележителни опити беше отново с ELIZA - компютърна програма, разработена от Джоузеф Вайзенбаум през 60-те години. Тя симулираше психотерапевт, комуникираше с хората, често под формата на въпроси. Въпреки че възможностите на ELIZA за разговори бяха ограничени, тя демонстрира потенциала на машините за естествен, човешки език. А някои потребители дори посочиха, че изглежда сякаш ELIZA ги разбира.

През 70-те години пък Кенет Колби разработи PARRY. Това бе програма, която симулира параноиден шизофреник. Отговорите на PARRY бяха по-сложни от тези на ELIZA. Тя водеше разговори с психиатри, някои от които намираха за трудно, но не и невъзможно да различат PARRY от човешки пациент. Това беше значителна стъпка напред, въпреки че не премина теста на Тюринг.

В началото на новото хилядолетие Роло Карпентър създаде Jabberwacky - чатбот, който се учеше от взаимодействията си с потребителите. За разлика от по-ранните опити Jabberwacky целеше да имитира човешкия разговор по-добре. Тя ползваше различни техники за машинно обучение, за да се подобрява. Въпреки че привличаше внимание и водеше по-плавни разговори с потребителите, алгоритъмът все пак не успя да премине теста на Тюринг.

Големият пробив дойде през 2014 г. Направи го програма на име Юджийн Густман. Тя бе симулация на 13-годишно украинско момче. Разработена от Владимир Веселов, Юджийн участва в серия от разговори по време на състезание, организирано от Университета на Рединг. Появиха се и публикации, че съдиите не можели надеждно да различат Юджийн от човек. Така някои съобщиха, че програмата е минала теста на Тюринг.

Постижението беше посрещнато със скептицизъм и противоречия. Критиците твърдяха, че успехът на Юджийн се дължи до голяма степен на това, че като непълнолетен и с английски като чужд език, много хора са проявили снизходителност към грешките му и затова са посочили, че е човек. Освен това кратката продължителност на разговорите - ограничени до пет минути, бе смятана за недостатъчна за строго тестване на възможностите на машината. Въпреки че представянето на Юджийн беше забележително, повечето експерти бяха на мнение, че то не отговаря на всички критерии на Тюринг.

При новия тест мнозина коментират, че времето от едва 5 минути е твърде малко. Други пък казват, че ключовото е това какви въпроси се задават. Според тях при по-сложни питания би лъснала истината, че става дума за машина, а не за човек. Напомнят и че GPT-4 всъщност съвсем наскоро препоръча на бременна жена да яде камъни, тъй като това ще е полезно за плода. Нямало и проблем да ходи на фитнес 8 дни в седмицата. Тези грешки дойдоха заради това, че алгоритъмът се обучава с публикации от форумите на редит. Той обаче не успява да разбере, че въпросните съвети са написани като шега.

Интересното е, че от Open AI обявиха и че можем да очакваме следващата версия - GPT-5, след около година и половина. Мира Мутари, която завежда технологичния отдел в компанията, назова срока, без да уточнява дали става дума за края на 2025 г., или за началото на 2026 година. Тя разказа и за потенциалните възможности, които алгоритъмът ще има. Според нея той ще е значителен скок в сферата на изкуствения интелект. Мурати даде и примери. GPT-3 бил с интелекта на дете на около 2 години, ъпдейтът му 3,5 - на дете на 12, а сегашната версия GPT-4 била с интелигентността на умен гимназист. GPT-5 щял да е значително по-усъвършенстван, дори да има познания на ниво “докторат” по определени теми.

АЛАН ТЮРИНГ
АЛАН ТЮРИНГ