SYSTRAN

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

SYSTRAN (zkratka pro „System translation“) je jeden z nejstarších systémů strojového překladu. V roce 1964 jej navrhl Peter Toma. Přestože byl SYSTRAN původně určen pro armádní účely, je teď i komerčním produktem.[1] Systém je velmi rozšířený a počet jeho jazykových párů roste každým rokem.[2]

Historie systému[editovat | editovat zdroj]

Vznik systému SYSTRAN se datuje do poloviny dvacátého století, tedy do doby, kdy již probíhaly první pokusy o strojový překlad. Navrhl jej Maďar Petr Toma, který už měl se strojovým překladem bohaté zkušenosti. Po emigraci do Spojených států amerických a práci v kalifornském Institut of Technology byl mezi lety 1958–1961 zapojen do vývoje Georgetownského systému. Sám si pak v Los Angeles založil společnost Computer Concepts, kde se věnoval dalšímu zkoumání strojového překladu, zejména v oblasti atomové energie a medicíny. Vyvinul zde rusko-anglické překladové systémy AUTOTRAN a TECHNOTRAN.[3]

V roce 1964 se Toma přestěhoval do Německa, kde začal konečně pracovat na rusko-anglickém systému SYSTRAN.[3] K jeho vývoji založil další vlastní společnosti, tentokrát ve Spojených státech amerických – Latsec Inc. (1968, La Jolla, Kalifornie) a World Translation Center (1975).

Úlohou SYSTRANu bylo zprvu zajistit během Studené války překlad z ruštiny do angličtiny pro letectvo Spojených států amerických. V roce 1972 hrozilo zastavení financování projektu, avšak Tomovi se podařilo obhájit své vize a finanční podpora byla obnovena. V návaznosti na to využil možnosti strojově překládat dokumenty pro vládní agenturu NASA v rámci vesmírného projektu Apollo-Sojuz (1974–1975). Překlad byl často pouze velmi přibližný, ale pro porozumění obsahu dokumentů postačoval.[4]

Výrazněji se SYSTRAN začal rozvíjet v roce 1975, kdy byl nabídnut prototyp jeho anglicko-francouzské verze zástupcům Evropské komise. Systém vyhovoval její zvýšené poptávce po překladech, která vznikla již po podepsání Římských smluv, a tak s ním uzavřela smlouvu pro vyvinutí dalších verzí programu, které by překládaly i jazyky ostatních států Evropských společenství. Výsledná anglicko-francouzská verze vznikla v roce 1976, následovala francouzsko-anglická verze (1978), anglicko-italská (1979) a anglicko-německá.[4]

Jazykové páry přibývaly i nadále, přičemž SYSTRAN s sledoval výsledky posledních výzkumů týkajících se strojového překladu a lingvistiky.[5] Stejně jako ve spojených státech amerických i jinde byly založeny společností k jeho vývoji – např. Systran Institut v Německu, Word Translation Corporation v Kanadě a Systran Corporation v Japonsku. Ve spolupráci s Japonskem vznikl i anglicko-japonský a japonsko-anglický překlad.[3]

V roce 1986 byla společnost prodána zájemci z Paříže a pak znova v roce 2014 korejské společnosti CSLi. Ta změnila název na SYSTRAN International. Jeho hlavním sídlem je teď Soul, další pobočky jsou v Tedžonu (Jižní Korea), Paříži (Francie) a San Diegu (Kalifornie).[2]

Vývoj systému[editovat | editovat zdroj]

V mnoha ohledech mohl být SYSTRAN považován v zásadě za vylepšeného nástupce Georgetownského systému přímého překladu. Lišil se zejména ve striktní separaci dat od počítačových procesů a v modularitě, která umožnila modifikaci jakékoliv části procesu bez ovlivnění překladu jako celku.[1]

Na počátku byl SYSTRAN typickým představitelem tzv. slovníkového překladu, postupem času se snažil vývojově přiblížit spíše k překladu transferovému. Dlouho využíval pravidlových metod, ale v roce 2010 představil jako první na trhu hybridní strojový překlad – kombinaci pravidlových a statistických metod, který díky statistickým metodám ještě více snižuje náklady na překlad. Díky hybridní metodě se software automaticky učí z již existujících a ověřených podkladů a jednoduše se přizpůsobuje. Redukuje také množství dat potřebných k trénování sofwaru a snižuje velikost statistických modelů. Výsledky post-editace jsou jednoduše znovu začleněny do softwaru (slovník, dodatečné natrénování), čímž se zamezí tomu, aby systém udělal stejnou chybu dvakrát.

Také uživatelé mohou zadat svůj vlastní zdroj (slovník), natrénovat software pro svoje potřeby podle toho, z jaké oblasti má být jejich text přeložen (cestování, IT, elektronika atd.), a tak vylepšit kvalitu překladu ve specifické oblasti.[2]

Základní rysy systému[editovat | editovat zdroj]

Následuje popis základních rysů starších verzí systému SYSTRAN (ze sedmdesátých a osmdesátých let 20. století). Základní postup se prakticky objevil již ve verzi systému pro americké letectvo.

Struktura systému je do značné míry modulární, díky čemuž je vývojářům umožněno vytvářet velký počet jazykových párů. Je tvořen více či méně nezávislými programy, které od sebe přebírají úlohy analýzování zdrojového textu či generování textu výstupního. Obsahuje dva hlavní typy programů:

Systémové programy (System Programs) – psány v jazyce symbolických adres, jsou nezávislé na konkrétních jazycích. Patří sem hlavní programy (pro vstup), vyhledávání ve slovníku a kontrolují překladový proces.[1]

Překladové programy (Translation Programs) – pro analýzu zdrojového jazyka a syntézu jazyka na výstupu jsou do určité míry nezávislé na konkrétním jazykovém páru. Jsou rozděleny do programů pro analýzu zdrojového jazyka, transfer a generování. Liší se podle jazyků, se kterými se pracuje.[1]

Slovníky

Velká část úspěchu SYSTRANU závisela vždy na slovnících. Velké bilingvní slovníky neobsahují pouze lexikální ekvivalenty, ale také gramatické a sémantické informace, které se používají během analýzy a generování. Většina těchto informací je ve formě algoritmů, které jsou vyvolány během různých fází překladu.[1]

Slovníková databáze systému SYSTRAN obsahuje dva bilingvní slovníky:

Main Stem dictionary – obsahuje všechna slova zdrojového jazyka s jejich kompletním morfologickým, syntaktickým a sémantickým popisem (gramatické kategorie, valence atd.) a překlad jeho kmenové formy do cílového jazyka (slova jsou rozdělena na kořeny a koncovky, vyjma slov v angličtině, kde to není potřeba).[3]

Slovníky víceslovných výrazů (multi-word „contextual“ dictionaries) – zajišťují data umožňující analýzu slova nebo jeho překlad, který může být změněn podle kontextu. Patří mezi ně například idiomatický slovník, slovník slovních spojení, výjimek z gramatiky atd. [3]

Nejprve se nejednalo ani o typický vícejazyčný systém (systém zahrnující více než 2 jazyky) a jednalo se spíše o soubor dvojjazyčných systémů, protože moduly jednotlivých jazyků byly na sobě v zásadě nezávislé a byly vyvíjeny zvlášť. Lze si též povšimnout, že překlad neplatil oboustranně – anglicko-francouzský systém se lišil od francouzsko-anglického skoro ve všech rysech. Až později se podařilo jednotlivé struktury více sjednotit.[5]

Další vylepšení proběhlo co se týče slov, která ve slovnících nejsou obsažena. V prvotním systému pro americké letectvo zůstávala tato slova nepřeložena, ale v systému pro Evropská společenství se zacházelo třeba i se slovy, která měla pravidelné koncovky.[3]

Dnešní využití SYSTRANu[editovat | editovat zdroj]

Nyní pracuje systém s přibližně 52 jazykovými kombinacemi (včetně slovenštiny a češtiny). Společnost se chlubí tím, že ročně investuje 20 % zisků do dalšího vývoje a výzkumu. Slibuje rychlý překlad rozsáhlých textových dokumentů.

Komerční verze SYSTRANu je možné využít na operačních systémech Microsoft Windows, Linux a Solaris. Společnost poskytovala svou technologii pro Yahooo!, Babel Fish a do roku 2007 ho využíval i Google Translate (poté začal využívat statistických metod). SYSTRAN byl prvním překladovým softwarem pro mobilní zařízení.[2]

Překládání pomocí SYSTRANu si lze vyzkoušet zdarma na adrese http://www.systranet.com/translate/ .

Reference[editovat | editovat zdroj]

  1. a b c d e HUTCHINS, John. Machine Translation: past, present, future. Chichester (UK): Ellis Horwood, 1986. Dostupné online. ISBN 0-85312-788-3. 
  2. a b c d SYSTRAN: 40 Years of MT Innovation | SYSTRAN – Translation Technologies. www.systransoft.com [online]. [cit. 2016-09-14]. Dostupné online. 
  3. a b c d e f HUTCHINS, John. An Introduction to Machine Translation. London: Academic Press, 1992. Dostupné online. ISBN 0-12-362830-X. S. 175–189. 
  4. a b TOMA, Peter. Early Years in Machine Translation: Memoirs and Biographies of Pioneers. Příprava vydání John Hutchins; From Serna to Systran. Amsterdam: John Benjamins publishing company, 2000. S. 135–145. 
  5. a b HUTCHINS, John. An Introduction to Machine Translation. London: Academic Press, 1992. Dostupné online. ISBN 0-12-362830-X. S. 7.