• English

Výstupy projektu

V roce 2020 byla spuštěna první verze platformy Beey, která je dostupná na adrese https://editor.beey.io/. Editační prostředí je odladěné pro webové prohlížeče Chrome, Firefox, Opera, Edge Chromium a všechny další prohlížeče postavené na softwaru Chromium. Podporované operační systémy jsou prozatím Windows a Linux, plánujeme přidat i podporu pro MacOS. Součástí editoru je přehrávač, který synchronizuje zvuk se zobrazovaným textem, dále klávesové zkratky pro rychlé úpravy textu, editovatelná databáze mluvčích a administrační prostředí pro správu přepisů a uživatelů. Editor rovněž obsahuje rozhraní uživatelských slovníků pro přidávání nových slov do rozpoznávače.

Do příprav spuštění platformy Beey a jejího následného provozu zásadně zasáhla koronavirová pandemie. V březnu 2020 propukl obrovský zájem o titulkování videí ze strany komunity neslyšících a nedoslýchavých, se kterou dlouhodobě společnost NEWTON Technologies spolupracuje. Vzhledem k povinnému zavedení roušek totiž lidé se sluchovým postižením nemohli odezírat a překlad do znakového jazyka nebyl u všech pořadů k dispozici. Vznikl tak výstup nad rámec projektu – internetová televize TV Beey, která slouží k publikaci obsahu s titulky nejen pro neslyšící a nedoslýchavé. Tato platforma zůstává i nadále v provozu a je dostupná na adrese https://beey.tv/tv-beey. Jsou na ní zveřejněny záznamy z tiskových konferencí vlády, zpravodajské relace či interview se zajímavými osobnostmi. TV Beey je k dispozici i jako samostatný produkt sloužící k publikaci otitulkovaného audiovizuálního obsahu.

V září rovněž vstoupila v platnost nová pravidla vycházející ze Zákona č. 99/2019 Sb. o přístupnosti internetových stránek a mobilních aplikací, který nařizuje všem subjektům veřejného sektoru publikovat obsah tak, aby byl přístupný pro osoby se sluchovým postižením. V praxi to znamená povinné titulkování videí, případně zajištění jiné formy přepisu audiovizuálního obsahu do textu. 

Kombinace těchto dvou faktorů způsobila, že zaměření projektu se přesunulo na titulkový mód, tzn. editaci textu a jeho následné převedení do formátu titulků, který bude splňovat mezinárodní i české normy, ale také požadavky na obsah či stylistická a typografická hlediska.

Dalším úspěchem nad rámec projektu je spolupráce s internetovou televizí DVTV, která díky Beey dostává přepsané a ručně opravené titulky pro všechny jejich pořady. Kromě kontroly textu editorem je proces plně automatický.

 

Editační rozhraní pro úpravu automaticky rozpoznaného přepisu. Text je již manuálně opravený s vloženými jmény mluvčích

V prvním roce řešení vznikla také první verze metodiky ve formě manuálu pro přepis a úpravu mluvených projevů. Dokument se opírá o výsledky dotazníkového šetření a poznatky z hloubkových rozhovorů. Zahrnuté okruhy jsou například gramatika, nespisovnost, stylistika, formátování značek, zkratek a čísel a poznámky v textu.

Dotazník, z něhož manuál vychází, byl distribuován mezi novináři a korektory z veřejnoprávních i soukromých médií i mezi editory NEWTON Media, kteří mají na starost přepisy mediálních výstupů. Celkem se šetření zúčastnilo 32 respondentů.

Hloubkové rozhovory byly vedené s odborníky z Ústavu pro jazyk český, České televize a z Obvodního soudu pro Prahu 1.

Manuál se věnuje celkem 23 tématům, jejichž (alespoň částečná) implementace do multimediální platformy Beey by novinářské komunitě zásadně usnadnila práci s aplikací. Současně by platformu Beey učinila atraktivnější pro newsroomy jakožto další potenciální klientelu. 

V inteligentním postprocessingu pak byla primární pozornost věnována správnému doplňování interpunkce. Inovativní algoritmus na bázi rekurentních neuronových sítí je schopen s vysokou přesností doplňovat tečky, čárky a otazníky do výstupu rozpoznávače. Výstup z interpunkčního modulu je zároveň důležitým vstupem pro titulkovací algoritmus, který se jím řídí.

PUBLIKACE

Výzkum týkající se inteligentního doplňování interpunkce do výstupu z automatického rozpoznávače textu byl navíc přednesen na konferenci Text, Speech, Dialogue 2020 a publikován jako článek ve sborníku:

Hlubík P., Španěl M., Boháč M., Weingartová L. (2020): Inserting Punctuation to ASR Output in a Real-Time Production Environment. In: Sojka P., Kopeček I., Pala K., Horák A. (eds) Text, Speech, and Dialogue. TSD 2020. Lecture Notes in Computer Science, vol 12284. Springer, Cham. https://doi.org/10.1007/978-3-030-58323-1_45