IEEE 754

IEEE 754 (známý také jako IEC 60559, případně IEC 559) neboli Standard IEEE pro dvojkovou aritmetiku v pohyblivé řádové čárce (někdy též nesprávně v plovoucí desetinné čárce) je nejrozšířenější standard pro výpočty v pohyblivé řádové čárce, který používá mnoho mikroprocesorů a jednotek FPU. Standard definuje formáty pro reprezentaci čísel v pohyblivé desetinné čárce včetně záporné nuly, denormalizovaných čísel a zvláštních hodnot (kladné a záporné nekonečno, a „nečíslo“ – NaN).

Verze standardu[editovat | editovat zdroj]

IEEE 754-1985 – byl poprvé implementován v koprocesoru Intel 8087
IEEE 754-2008 – rozšiřuje IEEE 754-1985; převzaly ho také ISO/IEC/IEEE 60559:2011
IEEE 754-2019 – rozšiřuje IEEE 754-2008; převzaly ho také ISO/IEC 60559:2020^[1]

IEEE 754-1985 definuje čtyři formáty čísla pro: jednoduchou přesnost (single, 32 bitů), dvojnásobnou přesnost (double, 64 bitů), základní-rozšířenou přesnost (≥ 43-bitů, běžně se nepoužívá) a dvojitou-rozšířenou přesnost (≥ 79-bitů, obvykle se implementuje na 80 bitů). Pro implementaci standardu je vyžadována pouze základní přesnost, ostatní jsou volitelné.

IEEE 754-2008 rozšiřuje předchozí standard o čísla s poloviční a čtyřnásobnou přesností, dále doplňuje formáty pro práci s desítkovou aritmetikou v pohyblivé řádové čárce.

IEEE 754-2019 definuje nové operace: tanPi, aSinPi a aCosPi, došlo ke změnám operací min, max vlivem změny zacházení s hodnotou NaN a nulou se znaménkem. Měl by zachovávat dopřednou kompatibilitu pro IEEE 754-2008, ale mohou nastat odchylky pro operace: min, max, Num, NumMag vlivem jiného zacházení s hodnotou NaN.^[2]

Tabulka formátů[editovat | editovat zdroj]

Formát	IEEE 754-1985	základ	bitů celkem	bitů znaménka	bitů exponentu	bitů mantisy^(*)	počet platných dekadických číslic	max. dekadický exponent	pozn.
binary16	–	2	16	1	5	10+1	3.31	4.51	poloviční přesnost, "Half"
binary32	single	2	32	1	8	23+1	7.22	38.23	základní přesnost
binary64	double	2	64	1	11	52+1	15.95	307.95	dvojitá přesnost
–	extended(x86)	2	80	1	15	64	19.26	4931.77	rozšířená dvojitá přesnost
binary128	–	2	128	1	15	112+1	34.02	4931.77	čtyřnásobná přesnost, "quadruple"
binary256	–	2	256	1	19	236+1	71.34	78913.2	osminásobná přesnost, "octuple"
decimal32^(x)	–	10	32	1	~8	~23	7	96	základní přesnost
decimal64^(x)	–	10	64	1	~10	~53	16	384	dvojitá přesnost
decimal128^(x)	–	10	128	1	~13	~114	34	6144	čtyřnásobná přesnost

(*) zápis např. 10+1b označuje, že mantisa je uložená 10bitově, přičemž se používá 1 "skrytý" bit

(x) každý decimální formát připouští dvě reprezentace, buď s využitím binárního kódování mantisy, nebo s využitím kódování DPD, kdy se 3 desítkové číslice zakódují do deseti bitů.

Reprezentovatelný rozsah čísel[editovat | editovat zdroj]

Pokud převedeme rozsah exponentů a mantis do desítkové soustavy, dostaneme méně přesný, avšak lépe představitelný obraz možností binárních formátů čísel v plovoucí řádové čárce. Pokud FPU jednotka umí pracovat s denormalizovanými čísly, dochází ke zlepšení rozsahu v okolí nuly. Nejmenší denormalizované číslo je rovněž nejmenším "kvantem", po kterém se mohou měnit normalizovaná nebo denormalizovaná čísla v blízkosti nuly (tj. čísla s "nejzápornějším" exponentem).

Většinu destinných čísel nelze přesně převést do dvojkové soustavy. Při převodu pak vznikají periodická čísla, která nejsou v binárních formátech IEEE 754 reprezentovatelná. Např. (0,1)₁₀ = (0,000 1100 1100 1100 ...)₂. Protože mantisa má omezený počet číslic, je nevyhnutelné zaorkouhlení, kvůli kterému vzniká nepřesnost.

Formát (IEEE 754-2008)	velikost mantisy^(*) (počet desítkových číslic mantisy)	reprezentovatelná celá čísla⁽⁺⁾	největší kladné číslo	nejmenší kladné normalizované číslo	nejmenší kladné denormalizované číslo
binary16	≈ 3,3 desítkových číslic	+-2¹¹, tj.+-2048	6.55... × 10⁴	6.10... × 10⁻⁴	≈ 6 × 10⁻⁸
binary32	≈ 7,2 desítkových číslic	+-2²⁴, tj. ≈ +-1,6×10⁷	3.402823... × 10³⁸	1.17549... × 10⁻³⁸	≈ 1.4 × 10⁻⁴⁵
binary64	téměř 16 desítkových číslic	+−2⁵³,tj. ≈ +-9×10¹⁵	1.79769... × 10³⁰⁸	2.22507... × 10⁻³⁰⁸	≈ 5 × 10⁻³²⁴
binary128	≈ 34 desítkových číslic	+−2¹¹³, tj. ≈ +-10³⁴	1.18973... × 10⁴⁹³²	3.36210... × 10⁻⁴⁹³²	≈ 6,5 × 10⁻⁴⁹⁶⁶

(*) tento údaj nám pomáhá uvědomit si s jakou přesností pracujeme; např. přesnost zhruba "3,3 číslic" znamená "o trochu lepší přesnost výpočtů než se zaokrouhlováním na tři platné desítkové číslice"

(+) tento údaj reprezentuje rozsah, ve kterém lze bez ztráty přesnosti provést převod mezi celým číslem a číslem v plovoucí řádové čárce; vzhledem ke struktuře binárních formátů IEEE754 tento rozsah odpovídá velikosti mantisy

Základní přesnost (single, binary32)[editovat | editovat zdroj]

Číslo v pohyblivé řádové čárce zabírá v přesnosti „single“ právě 32 bitů. Přitom je jeden bit vyhrazen pro určení znaménka, 8 bitů pro zakódování exponentu v aditivním kódování (také kód s posunutou nulou) a 23 bitů pro zakódování mantisy.

bit	31	30 29 … 24 23	22 21 … 3 2 1 0
význam	s (znaménko)	e (exponent)	m (mantisa)

podrobněji rozepsáno:

bit	31	30	29	…	24	23	22	21	…	3	2	1	0
význam	s	e₇	e₆	…	e₁	e₀	m₁	m₂	…	m₂₀	m₂₁	m₂₂	m₂₃

Pro reprezentovanou hodnotu "X" platí.

 X = (-1)^s × 2^E-127 × (1 + Q)

kde:

 E = 2⁷ × e₇ + 2⁶ × e₆ + … + 2¹ × e₁ + e₀
 Q = m₁ × 2⁻¹ + m₂ × 2⁻² + … + m₂₂ × 2⁻²² + m₂₃ × 2⁻²³

Můžeme si povšimnout, že místo aby mantisa obsahovala bit m₀, tak se k ní vždy přičítá jednička. Tento "skrytý bit" umožňuje efektivnější kódování a porovnávání. Díky absenci m₀ je vyloučena možnost zakódovat stejné číslo mnoha různými způsoby. Současně bychom se tím však zbavili možnosti zakódovat číslo nula. Proto výše uvedený základní vzorec platí pouze když je E v mezích 1 až 254, hodnoty E=0 a E=255 jsou použity pro vyjádření speciálních případů, kdy nelze výsledek operace pomocí výše uvedeného vzorce zakódovat:

podmínka	hodnota	poznámka
E = 1 až 254	X = (-1)^s × 2^E-127 × (1 + Q)	základní formát
E = 0, Q ≠ 0	X = (-1)^s × 2⁻¹²⁶ × Q	denormalizovaná čísla
E = 0, Q = 0, s = 0	X = 0	kladná nula
E = 0, Q = 0, s = 1	X = 0	záporná nula
E = 255, Q = 0, s = 0	X = +∞	kladné nekonečno (výsledek byl příliš vysoký)
E = 255, Q = 0, s = 1	X = −∞	záporné nekonečno (výsledek byl příliš nízký)
E = 255, Q > 0	X = NaN	není číslo

Ostatní dvojkové formáty[editovat | editovat zdroj]

Ostatní formáty se základem 2 jsou řešeny obdobně jako základní přesnost, pouze jsou jiné počty bitů pro pole e a m

Desítkové formáty[editovat | editovat zdroj]

Desítkové formáty se zatím běžně nepoužívají, standard navíc připouští dvě různé implementace, které mohou být u některých formátů i částečně funkčně odlišné. Tyto implementace se liší v kódování mantisy, které je buď binární anebo využívá schéma DPD pro zakódování tří desítkových číslic do deseti bitů.

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

↑ ISO/IEC 60559:2020 Information technology — Microprocessor Systems — Floating-Point arithmetic [online]. ISO.org, 2020-05 [cit. 2021-12-27]. Dostupné online. (anglicky)
↑ ANSI/IEEE Std 754-2019 Changes in 754-2019 from ANSI/IEEE Std 754-2008 [online]. ieee.org [cit. 2021-12-27]. Dostupné online. (anglicky)

Související články[editovat | editovat zdroj]

Matematický koprocesor

Externí odkazy[editovat | editovat zdroj]

Obrázky, zvuky či videa k tématu IEEE 754 na Wikimedia Commons
Popis IEEE 754 na root.cz
IEEE 754 kalkulátor
Jiný IEEE 754 kalkulátor

[ISO/IEC_60559:2020-1] ISO/IEC 60559:2020 Information technology — Microprocessor Systems — Floating-Point arithmetic [online]. ISO.org, 2020-05 [cit. 2021-12-27]. Dostupné online. (anglicky)

[ieeeGrouper2019changes-2] ANSI/IEEE Std 754-2019 Changes in 754-2019 from ANSI/IEEE Std 754-2008 [online]. ieee.org [cit. 2021-12-27]. Dostupné online. (anglicky)

[1]

[2]