Překladatelský průmysl disponuje velkým objemem dat – hrozí jejich zneužití?

Již několik let se překladatelský průmysl připravuje na změny v oblasti zpracování překladů. Otázku efektivity částečně vyřešily pokroky v automatizaci, strojovém překladu a neuronovém strojovém překladu, které zajistily větší objemy překladu než kdykoli předtím. Tento krok s sebou nese ale také úskalí v podobě bezpečnosti poskytovaných dat.

Podle odborníků je kvalitní překladatel schopen přeložit okolo 2 500 slov za den (asi 400 slov za hodinu). Jedná se o limit, který se za posledních deset let nezměnil, i když během této doby se překladatelský průmysl více než zdvojnásobil a v roce 2019 dosáhl odhadovaného obratu 46,9 miliard amerických dolarů. Odborníci proto očekávají zásadní strukturální a technologické změny, kvůli kterým budou poskytovatelé jazykových služeb nuceni změnit své fungování, pokud budou chtít uspokojit tržní poptávku. Již nyní v souvislosti s opatřením kolem koronaviru roste poptávka po automatizovaném přístupu, který v podobě strojového překladu představuje větší efektivitu a úsporu nákladů.

Zdokonalování technologie překladů

Technologická řešení jsou čím dál sofistikovanější a dostupnější. Mezi nejznámější nástroje patří strojový překlad (MT = machine translation), který s použitím umělé inteligence pomáhá překladatelům pracovat rychleji a udržovat konzistenci v přeloženém obsahu. Princip strojového učení funguje na překladové paměti, kdy si počítač zapamatuje překlady jednotlivých vět nebo celých textů, a pokud při následujících překladech rozezná podobnosti, nabídne využití už jednou přeloženého textu. Ačkoliv strojový překlad zvyšuje kvalitu i rychlost samotného překladu, podle CSA ho v určitém okamžiku vyzkoušelo pouze 44 % překladatelských společností.

Strojový překlad doplněný o algoritmus neuronového strojového překladu (nMT = neural machine translation) používá například Google Translate. “Strojový překlad neuronovou sítí se na datech učí a jejich strukturu musí „chápat“. Naopak strojový překlad je daný matematickou posloupností a statistikou. V prvním případě původní struktura dat zaniká a kvalita překladu je dána tím, jak strukturu textu neuronová síť uchopí, v druhém případě se pracuje s fragmenty vět a celkový kontext je proto čitelnější,” říká Josef Mareyi, CAT specialista jazykové agentury Skřivánek.

Bezpečnost dat

Organizace a překladatelské agentury disponují velkým množstvím citlivých údajů. Přesto mnohdy používají překladové stroje s otevřeným zdrojovým kódem, čímž jejich poskytovateli dávají celosvětovou licenci k použití, hostování, ukládání a publikování obsahu (což rozhodně není v souladu s GDPR, ani se zájmy společností, které překlady zadávají). Proto by jazykové agentury měly používat zabezpečené prostředí strojového překladu, který může být nasazen na jejich vlastních serverech, a v případě potřeby šifrován, čehož není možné veřejně dostupnými systémy MT dosáhnout.

“V případě veřejných překladačů se organizace vzdávají práva na obsah svých dokumentů, což u firemních dokumentů může mít katastrofální následky. A to ještě nemluvíme o neznalosti zabezpečení těchto třetích stran,” dodává Josef Mareyi. Některé společnosti proto přímo zakazují svým zaměstnancům veřejně dostupné překladače využívat, případně mají přístup k nim zablokovaný.

Dopady využití veřejně dostupných překladačů

Obsah poskytovaný veřejně dostupným překladačům podléhá dohodám o užívání, které opravňují poskytovatele MT k jeho ukládání, úpravám, reprodukci, a distribuci. V případě firem se může jednat o plány akvizic, nových produktů, komunikaci týkající se zákaznických nebo interních problémů, citlivé otázky lidských zdrojů a další důvěrný obsah obchodních procesů. Vědomí možných rizik začíná již u soukromého chování na internetu, kdy mnoho lidí například využívá online editory fotek, aniž by si cokoli zjistili o majiteli webového editoru, dosahu jeho služeb, sdílení dat a především záměru, tedy proč vůbec nabízí takovou službu online.

“Vezměme si v médiích nedávno hojně zmiňovanou službu, která modifikovala vzhled osob na fotografii tak, aby vypadaly, že jsou v seniorském věku. Tato služba ale měla pomocí naučení neurální sítě danou osobu porovnat a s určitou jistotou ji na jiných fotografiích identifikovat. Obdobné služby se běžně využívají na převody dokumentace, různých formátů, editorů fotek atd. A tuto praxi osobního sdílení zažívanou jednotlivci je pak snadné zanést i do firemní kultury a nějakou zdánlivou maličkostí poškodit vlastní know-how, nebo „jen“ znehodnotit obchod svým obchodním partnerům,” upozorňuje Mareyi.

Je možné se v případě úniku citlivých dat bránit?

Pokud dojde k úniku citlivých dat skrze veřejně dostupné překladače, pak je následná obrana takřka nemožná – pečlivým prostudováním obchodních podmínek často zjistíte, že se svých práv vzdáváte. Mnohdy se jedná o desítky stran právnických obratů a celkově tak složitého textu, že běžný uživatel jej raději „odroluje“ a potvrdí. Mnohé veřejné weby se spokojí jen s užitím služby bez potvrzení navíc. Často ani není k dispozici samostatný GDPR checkbox, skrze jehož zaškrtnutí souhlasíme s užitím našich osobních údajů.

“Pokud agentury svěřená data poskytují třetí straně a zároveň o tom majitele dat neinformují, porušují tím minimálně vzájemnou důvěru – a v mnoha případech tím jistě překročí hranici zákona. Takoví poskytovatelé jazykových služeb mohou mít v obchodních podmínkách uvedeno, že data klienta budou strojově zpracována. Jde však o tak významný počin, že klient musí být na tento fakt upozorněn zcela konkrétně už při uzavírání smlouvy. Pouhý odkaz na obchodní podmínky je v případě využívání veřejných překladačů totéž, jako psát záludnosti malým nečitelným písmem. Proto by si firmy měly předem ověřit, jaký systém strojového překladu agentura využívá,” uzavírá Jiří Proniuk, vedoucí střediska CAT a DTP jazykové agentury Skřivánek certifikované podle ISO 27001, mezinárodní normy pro řízení bezpečnosti informací (ISMS).