Разпознаването какво си казват хората само по "четене" на устните им е голяма тема за мнозина експерти и анализатори на политици и известни личности. Оказва се обаче, че хората познават успешно едва една от всеки пет думи, а най-опитните могат да разберат средно 4-5 думи от изречение от 12 думи, съобщава Engadget.
Това са данни на проучвания от 2009 г. на американския Център за лечение и превенция на болести. Проучване от 2011 г. на Университета на Оклахома пък показва още по-лоши резултати за хората - едва 10% точност в разпознаването на думи по устните.
Разбира се, има хора, които са по-добри и достигат до около 30-45% точност. Те обаче се смятат от науката за изключения и са оценявани между 3 и 5 пъти над нормата, което е допълнително доказателство за учените колко трудно е да се "чете" по устни, пише Вести.бг.
Не и за изкуствения интелект. Вече има системи, които достигат до 95% точност в разпознаването на думите само по устни. Това е възможно, тъй като те са специално обучени алгоритми, които използват огромни бази данни и постоянно ги анализират и обработват. И макар да е впечатляващ за хората резултат, той не е достатъчен за самия изкуствен интелект. Целта е той да постигне максимална точност, за да може да се използва за биометрична идентификация, както и за различни задачи като обработка на филми, разпознаване на говор, помагане на хора със заболявания и др.
Самото движение на устните не съдържа достатъчно информация за казаното, коментира др. Фабиан Камбел-Уест, който е експерт по темата и разработва приложение за "четене" на устни. Голяма част от комуникацията е чрез фонеми, които са три пъти повече от "виземите", т.е. визуалното движение на устните. Затова е и толкова трудно да се разпознава какво се казва, без да бъде чуто.
От голяма полза е контекстът. Ако "четящият" устни има представа какъв е контекстът на разговора, може да разпознае повече думи. Но това включва и допълнителни особености като език, синтаксис, произношение и др. И все пак основните правила са еднакви и опитните експерти могат бързо да се нагодят както музикант към нова песен.
Проучване на иранския Университета за наука и технологии от 2021 г. открива и други особености. Например, че хората са "мързеливи и разчитат на контекста и предишните си знания", когато се опитват да разчетат устни. Освен това тяхната цел е най-вече да "хванат" няколко думи, за да разберат общата картина на казаното.
Изкуственият интелект от своя страна е много по-методичен. Той има за цел да превърне визуалната информация в думи. Съответно се опитва да разпознае всяка една дума конкретно. Затова основният проблем за технологията е най-вече липсата на стандартизирана база данни. А именно тя е решаваща за качеството на обучението на алгоритъма.
Базата трябва да съдържа не само информация за устните, но и да предвижда странични фактори като околна светлина, ъгъл на наблюдение, различните устни, наличие на брада, бръчки и т.н. И все пак, по света има десетки такива проекти и алгоритми, които разглеждат различните аспекти.
Така например алгоритъмът LRS3 -TED е разпознал 150 000 изречения от различни TED програми. А LSVSR е една от най-големите бази данни с над 140 000 часа аудио сегменти, 127 000 думи и 2 934 899 изказвания. Напредъкът вече е значителен, но учените не бързат да провъзгласяват технологията за готова. Напротив, нужна е много работа, която ще отнеме време, но вече устройства и проекти като по-добри слухови апарати например са в полезрението на проектите.