ReLU

Z Wikipedie, otevřené encyklopedie
Graf funkcí ReLU (modrá) a GELU (zelená) poblíž x = 0

Reálná funkce jedné reálné proměnné zvaná ReLU (zkratka REctified Linear Unit)[1] nebo usměrňovač (rectifier) či rampa (ramp function) se používá především v kontextu umělých neuronových sítí jako aktivační funkce. Je definována jako kladná část svého argumentu:

kde x je vstup do neuronu. Její průběh popisuje také výstupní napětí ideálního usměrňovače v elektrotechnice v závislosti na vstupním napětí. Jako aktivační funkci ji zavedl Kunihiko Fukushima v roce 1969 v kontextu extrakce vizuálních prvků v hierarchických neuronových sítích.[2] Později se ukázalo, že má i biologickou motivaci a matematické odůvodnění.[3] V roce 2011 se zjistilo, že ReLU umožňuje lepší trénování hlubších sítí ve srovnání s předtím používanými aktivačními funkcemi, např. logistickou funkcí (která je inspirována teorií pravděpodobnosti; viz logistická regrese) nebo praktičtější hyperbolickou funkcí. ReLu a její varianty tak patří k nejoblíbenějším aktivačním funkcím pro hluboké učení a uplatňují se například v počítačovém vidění, rozpoznávání řeči[4] a výpočetní neurovědě.[5]

Výhody[editovat | editovat zdroj]

  • Řídká aktivace: Například v náhodně inicializované síti je aktivováno pouze asi 50 % skrytých jednotek (mají nenulový výstup).
  • Lepší šíření gradientu: Méně problémů s mizejícím gradientem ve srovnání se sigmoidálními aktivačními funkcemi, které saturují v obou směrech.
  • Efektivní výpočet: Pouze porovnávání, sčítání a násobení.
  • Invariantní vůči měřítku: .

V roce 2011 se ukázalo, že použití ReLU jako nelinearity umožňuje trénovat hluboké neuronové sítě s učitelem bez nutnosti předtrénování bez učitele. ReLU ve srovnání se sigmoidou nebo podobnými aktivačními funkcemi umožňují rychlejší a efektivnější trénování hlubokých neuronových architektur na velkých a komplexních souborech dat.

Nevýhody[editovat | editovat zdroj]

  • Funkce ReLU není diferencovatelná v nule; je však diferencovatelná všude jinde a hodnota derivace v nule může být libovolně zvolena 0 nebo 1.
  • Necentrovaná.
  • Neohraničená.
  • Neurony s ReLU mohou být někdy vytlačeny do stavů, ve kterých se stanou neaktivními v podstatě pro všechny vstupy (dying ReLU problem). V tomto stavu neprotékají neuronem zpět žádné gradienty, a tak neuron uvízne v trvale neaktivním stavu a „umírá“. Jde o variantu problému mizejícího gradientu. V některých případech může takto odumřít velké množství neuronů dané sítě, a to snižuje kapacitu modelu. Tento problém obvykle nastává, když je rychlost učení nastavena příliš vysoko. Může být zmírněn použitím tzv. netěsných (leaky) ReLU, které přiřazují malý kladný sklon pro x < 0; výkon sítě je však nižší.

Varianty[editovat | editovat zdroj]

Po částech lineární varianty[editovat | editovat zdroj]

Netěsné (leaky) ReLU[editovat | editovat zdroj]

Netěsné ReLU mají malý kladný gradient, pro záporná čísla, tj. když neuron není aktivní.[4] To pomáhá zmírnit problém mizejícího gradientu. Například:

Parametrické ReLU[editovat | editovat zdroj]

Parametrické ReLU (PReLU) posouvá tuto myšlenku dále tím, že převádí koeficient netěsnosti do parametru, který se učí spolu s dalšími parametry neuronové sítě.

Pro a ≤ 1 je to ekvivalentní s

a má tedy vztah k sítím typu „maxout“.

Nelineární varianty[editovat | editovat zdroj]

Lineární jednotka s Gaussovou chybou (GELU)[editovat | editovat zdroj]

GELU (Gaussian-error linear unit) je hladká aproximace ReLU:

kde je kumulativní distribuční funkce standardního normálního rozdělení.

Tato aktivační funkce je znázorněna na obrázku na začátku tohoto článku. Má „hrbol“ nalevo od x = 0 a slouží jako výchozí aktivace například pro model BERT .

SiLU[editovat | editovat zdroj]

SiLU (sigmoid linear unit) nebo funkce swish je další hladká aproximace, poprvé uvedená v článku o GELU:

kde je sigmoida, logistická funkce.

Softplus[editovat | editovat zdroj]

Další hladká aproximace ReLU je analytická funkce

která se nazývá funkce softplus nebo SmoothReLU. Pro velký záporný argument je to zhruba , takže malé kladné číslo, zatímco pro velké kladné je to zhruba , takže těsně nad .

Tuto funkci lze aproximovat jako

To se substitucí dá převést na

Sem lze přidat ještě parametr ostrosti :

Derivací softplus je logistická funkce.

Logistická sigmoidní funkce je hladkou aproximací derivace ReLU, Heavisideovy funkce.

Zobecnění softplus na více vstupních proměnných je LogSumExp s prvním argumentem nastaveným na nulu:

Funkce LogSumExp je

a jeho gradient je softmax; softmax s prvním argumentem nastaveným na nulu je vícerozměrné zobecnění logistické funkce. LogSumExp i softmax se používají ve strojovém učení.

ELU[editovat | editovat zdroj]

ELU (Exponential Linear Units, exponenciální lineární jednotky) mají střední aktivaci bližší nule, což urychluje učení. Bylo prokázáno, že ELU mohou dosáhnout vyšší přesnost klasifikace než ReLU.

V těchto vzorcích je hyperparametr, který se ladí s omezující podmínkou .

Na ELU lze pohlížet jako na vyhlazenou verzi posunuté ReLU (SReLU), která má tvar se stejnou interpretací .

Mish[editovat | editovat zdroj]

Funkci mish lze také použít jako hladkou aproximaci ReLU. Je definována jako

kde je hyperbolická tangenta a je funkce softplus.

Mish není monotónní a byla inspirována funkcí swish, což je varianta ReLU.[6]

Squareplus[editovat | editovat zdroj]

Squareplus je funkce

kde je hyperparametr, který určuje rozsah zakřivené oblasti v blízkosti . (Například dává ReLU a dává funkci označovanou anglicky jako metallic means, kovové průměry.) Squareplus sdílí mnoho vlastností se softplus: Je monotónní, všude kladný, konverguje k 0 pro , konverguje k identitě pro a je hladký. Squareplus však lze vypočítat pouze pomocí algebraických funkcí, takže se dobře hodí pro situace, kde jsou omezené výpočetní zdroje nebo instrukční sady. Squareplus navíc nevyžaduje žádnou zvláštní pozornost k zajištění numerické stability, když je velké.

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Rectifier (neural networks) na anglické Wikipedii.

  1. LIU, Danqing. A Practical Guide to ReLU [online]. 2017-11-30 [cit. 2024-03-26]. Dostupné online. (anglicky) 
  2. Competition and cooperation in neural nets: proceedings of the U.S.-Japan joint seminar held at Kyoto, Japan, February 15-19, 1982. Příprava vydání Shun-Ichi Amari, M. A. Arbib. Berlin Heidelberg: Springer 441 s. (Lecture notes in biomathematics). ISBN 978-3-540-11574-8, ISBN 978-0-387-11574-0. 
  3. HAHNLOSER, R. H.; SARPESHKAR, R.; MAHOWALD, M. A. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature. 2000-06-22, roč. 405, čís. 6789, s. 947–951. PMID: 10879535. Dostupné online [cit. 2024-03-26]. ISSN 0028-0836. DOI 10.1038/35016072. PMID 10879535. 
  4. a b Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models.
  5. HANSEL, D.; VAN VREESWIJK, C. How noise contributes to contrast invariance of orientation tuning in cat visual cortex. The Journal of Neuroscience: The Official Journal of the Society for Neuroscience. 2002-06-15, roč. 22, čís. 12, s. 5118–5128. PMID: 12077207 PMCID: PMC6757721. Dostupné online [cit. 2024-03-26]. ISSN 1529-2401. DOI 10.1523/JNEUROSCI.22-12-05118.2002. PMID 12077207. 
  6. SHAW, Sweta. Activation Functions Compared With Experiments. W&B [online]. 2020-05-10 [cit. 2024-03-26]. Dostupné online. (anglicky)