Workshop I: Práce novináře v éře žurnalistiky umělé inteligence - „Práce novináře v éře žurnalistiky umělé inteligence“

29. května 2019 uspořádala katedra žurnalistiky IKSŽ, Fakulty sociálních věd UK workshop „Práce novináře v éře žurnalistiky umělé inteligence“. Jeho cílem byla výměna poznatků z oblasti žurnalistické praxe, sociálních věd a technických věd. Součástí workshopu bylo představení vývoje žurnalistiky AI v zahraničí a v České republice (konkrétně v ČTK), byly vyvráceny mýty spojované s AI, došlo na vysvětlení principu strojového učení a způsobu, jakým počítač čte a rozumí textu.

Stěžejním úkolem workshopu potom bylo představení dosavadního průběhu grantového projektu TAČR „Proměna etických aspektů s nástupem žurnalistiky umělé inteligence“. Konkrétně vývoje a aplikace systému umělé inteligence, který by měl sloužit České tiskové kanceláři (ČTK). Výstupem tohoto systému by měly být automaticky vygenerované redakční shrnutí a backgroundy, vzniklé na základě textů, které jsou již v archivech ČTK obsaženy.

Za použití korpus ČTK, který obsahoval 9 321 shrnutí a 110 463 na ně vázaných zpráv, odborníci z katedry informatiky a výpočetní techniky Fakulty aplikovaných věd ZČU Plzeň, provedli několik testů. Zaměřili se přitom na dva typy automaticky vygenerovaných textů, automatickou extraktivní sumarizaci a automatickou abstraktivní sumarizaci.

Z výsledků testů vyplývá, že použité modely byly úspěšné částečně. Automatický extraktivní přístup zanedbává práci novináře, který je schopný textu propůjčit čtivý formát. Při pokusu o provedení automatické abstraktivní sumarizace neuspěl první model neuronových sítí. Důvodem mohla být nevhodná aplikace modelu na konkrétní případ, případně nedostatečné množstvím původních zpráv.

Druhý model automatické abstraktivní sumarizace byl úspěšný částečně. Dokázal rozpoznat sportovní odvětví, ale již neuměl ve zdrojových datech identifikovat původní fakta. I tak nelze říci, že by tento model nefungoval. Aplikuje se běžně na stejnou úlohu v anglických korpusech, které čítají přes čtvrt milionu tréninkových dat (přes 300 tisíc zpráv a k nim nepárovaných shrnutí). Při trénování na takto širokém vzorku je model úspěšný. Použitý korpus ČTK ovšem čítá několikanásobně méně tréninkových dat a lze tedy předpokládat, že tento vzorek je pro provedení úspěšné automatické abstraktivní sumarizace nedostačující. Negativně se do výsledků promítají také výskyty v korpusu, kdy shrnutích obsahují pasáže (backgroundy), které související dílčí zprávy neobsahují a nemají tudíž logiku k původnímu textu. Jsou výsledkem individuální novinářské práce a jeho/jejích znalostí. Pro počítač jsou ale takové pasáže matoucí.

Pro úspěšný vývoj a aplikaci systému umělé inteligence se potom nabízí několik variant dalšího postupu. Jednou z nich je zdokonalení automatické extraktivní sumarizace, kdy algoritmus hledá shluky vět, které hovoří o podobném tématu. V případě automatické abstraktivní sumarizace je potom stěžejní dostupnost většího množství tréninkových dat, případně kvalitnějších tréninkových data.

Hlavní závěry

Vznik a aplikace systému žurnalistiky AI je v České republice výrazně pomalejší než v zahraničí, především anglofonních zemích.
Prvotním cílem projektu je rozvoj systému AI pro aplikačního garanta projektu (Českou tiskovou kancelář), který by měl směřovat ke schopnosti automaticky vygenerovat text na základě textů, které jsou již obsaženy v archivech ČTK.
Během prvních pěti měsíců projektu došlo k definování zadání, jak umělou inteligenci aplikovat do prostředí ČTK a na její servis, ze kterého by se AI učila.
V rámci aktuálního projektu jsou z redakčního hlediska pro aplikaci AI v ČTK vhodné formáty ‚shrnutí‘ (zvláštní typ zprávy, která sumarizuje hlavní informace zpravidla ze zpravodajského seriálu a neobsahuje nové informace), ‚backgroundy’ (kontext potřebný k pochopení zprávy, který by se neměl slepě kopírovat ze zprávy do zprávy) a ‚ověřování dat/fact checking‘.
„Umělá inteligence“ je typickým příkladem ‚buzzword‘. Je hodně nadužívána v různých souvislostech. Přitom AI funguje překvapivě špatně v úlohách, kde je mediálně prezentovaná jako samozřejmá budoucnost lidstva. Nejlépe fungující AI je ta, o které lidé ani neví.
Počítač nerozumí konceptu slova a neumí si ho uložit. Jediné, co si umí uložit, jsou čísla. Proto si počítači musí text přeložit do čísel.
Zhruba před deseti lety se počítačům přestaly předkládat lidmi vytvořené slovníky a grafy vztahu mezi slovy. Počítač se má na základě tréninkových dat sám naučit, co slovo znamená a jaký má vztah k jiným slovům.
Mezi nejjednodušší využití AI pro tvorbu textového zpravodajství v obecné rovině patří zpracování dat z oblasti ekonomiky a financí, sportu, počasí, a dále průzkumy, výsledky voleb a statistiky. Komplikovanější je potom zpracování jiných textů, například překladů, shrnutí, abstraktů, pozadí za účelem produkce nových textů, které by obsahovaly nové či rozšiřující informace.
Hlavními výhody využití AI je rychlost, snížení chybovosti, rozsah zpracovaného obsahu (množství zpráv a záběr).
Zpracování textů z technologického hlediska lze rozdělit do dvou oblastí. Prvním jsou jednoduché algoritmy, které pracují na základě šablon. Druhý je AI založená na strojovém učením. V tomto případě se může jednat o jazykové zpracování (stavba, gramatika, styl), Natural Language Processing (NLP), výběr a způsob prezentace dat nebo porozumění textů.
Počítač obtížně rozpoznává stejný kmen českých slov. Oproti angličtině má čeština se svými 6 až 8 koncovkami v závislosti na slovním druhu zhruba desetinásobně řidší výskyt slov. V případě, že budeme vyhodnocovat vazby mezi slovy, tak máme stokrát složitější problém a potřebujeme přibližně stokrát více dat, přibližně 4 miliony zpráv, tedy 10¹⁷ operací.
Testování dvou přístupů tvorby automatických shrnutí za použití korpus ČTK obsahujícího 9 321 shrnutí, na které se váže 110 463 zpráv, bylo úspěšné částečně.
Testovaný automatický extraktivní přístup zanedbává práci novináře, který je schopný textu propůjčit čtivý formát. První model automatické abstraktivní sumarizace neuspěl. Druhý model automatické abstraktivní sumarizace dokázal rozpoznat sportovní odvětví, ale již neuměl ve zdrojových datech identifikovat původní fakta.
Lze předpokládat, že použitý korpus ČTK je pro provedení úspěšné automatické abstraktivní sumarizace nedostačující.