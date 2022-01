Praha - Generátor jazyka, který zvládne vytvořit texty na daná témata z několika desítek příkladů, je cílem projektu Ondřeje Duška z Matematicko-fyzikální fakulty Univerzity Karlovy. Vědec to řekl v rozhovoru s ČTK. Technologie by měla produkovat přirozený, plynulý jazyk a nedělat chyby. Dušek je jedním ze čtyř českých vědců a vědkyň, jejichž projekty letos podpořila Evropská výzkumná rada (ERC) prestižním startovacím grantem. Výzkum, na kterém Duškův tým pracuje, by měl přispět k širšímu využití generátorů, a to i pro jazyky, které nejsou rozšířené a jejichž generátory se firmám zatím nevyplatí. Grant ERC je pětiletý.

"Projekt (...) se zabývá generováním přirozeného jazyka, tedy snaží se učit počítače ´mluvit´. Jde hlavně o popsání souboru dat v lidsky čitelné formě, například přehledné textové shrnutí," popsal Dušek. "Dalšími aplikacemi jsou odpovědi chytrých asistentů, jako Alexa, Siri, nebo Google. Tedy srozumitelné zformulování odpovědi na uživatelův dotaz, nebo sumarizace – vytvoření krátkého shrnutí delších textů, například novinových článků," doplnil.

Dušek řekl, že nyní existují dva základní typy generátorů jazyka. "Ty, se kterými se můžete běžně setkat, například v chytrých asistentech nebo na různých webových stránkách, jsou založené na ručně psaných šablonách a pravidlech. Do předem ručně napsané věty s vynechanými místy doplní jen konkrétní hodnoty, třeba skóre zápasu, nebo čas odjezdu vlaku. Fungují spolehlivě, ale ne vždy je jejich vyjadřování plynulé a příprava šablon je náročná a drahá," řekl.

"Ve výzkumných generátorech se v posledních letech používá hlavně strojové učení s umělými neuronovými sítěmi. Tento typ generátorů se umí naučit o konkrétním tématu 'mluvit' z příkladových vět a výstupy jsou typicky velmi přirozené. Problémem ale je, že trénovacích příkladů potřebují neuronové generátory tisíce, což je taky těžké a drahé získat," uvedl dále Dušek. Největší překážkou praktického použití neuronových generátorů je podle něj jejich nepřesnost. "Často se stane, že na výstupu se neobjeví nějaká důležitá informace, nebo generátor dokonce 'halucinuje' něco, co ve vstupních datech vůbec není obsaženo," řekl.

Duškův projekt se snaží z obou přístupů vzít to nejlepší a vyvinout technologii, která zvládne generovat tematický text z pár desítek příkladů, vyprodukovat přirozený, plynulý jazyk a také zaručí, že výstup bude přesně odpovídat vstupním datům.

"Generátor nejprve výstup podrobně naplánuje a až potom neuronová síť vybere, jak plán vyjádřit slovy. Navíc bude možné s plánem provádět logické nebo matematické operace, například porovnat teploty za poslední týden a určit trend, nebo porovnat skóre zápasu a správně popsat vítěze," popsal Dušek. "Výstupy projektu by měly pomoci většímu rozšíření generátorů jazyka, takže nebudou omezené na velké firmy a velké jazyky, jak je tomu převážně dnes," dodal. Projekt by měl vést i k tomu, aby technologie generovala delší texty, než je současný standard.