Single (formát čísla v pohyblivé řádové čárce)

Počítačovou reprezentaci čísel v pohyblivé řádové čárce definuje standard IEEE 754. Ve speciálních případech nebo u velmi starého hardware se mohou vyskytnout i jiné formáty. Nejčastěji používanou reprezentací jsou čísla ve formátu „single“ (binary32 podle IEEE 754) a „double“ (binary 64 podle IEEE 754), tedy 32bitová a 64bitová čísla v plovoucí řádové čárce.

Formát binary32 v IEEE754[editovat | editovat zdroj]

Číslo je kódované dvojkově. Přesnost je lepší než 7 desítkových číslic, exponent je zhruba ±10³⁸. Současný hardware většinou podporuje denormalizovaná čísla, takže nejmenší krok čísel okolo nuly je zhruba 1.4 × 10⁻⁴⁵.

V počítačovém jazyce java odpovídá formátu binary32 elementární typ float.

Reprezentace[editovat | editovat zdroj]

Číslo v pohyblivé řádové čárce zabírá v přesnosti „single“ právě 32 bitů. Přitom je jeden bit vyhrazen pro určení znaménka, 8 bitů pro zakódování exponentu v aditivním kódování (také kód s posunutou nulou) a 23 bitů pro zakódování mantisy.

bit	31	30 29 … 24 23	22 21 … 3 2 1 0
význam	s (znaménko)	e (exponent)	m (mantisa)

podrobněji rozepsáno:

bit	31	30	29	…	24	23	22	21	…	3	2	1	0
význam	s	e₇	e₆	…	e₁	e₀	m₁	m₂	…	m₂₀	m₂₁	m₂₂	m₂₃

Pro reprezentovanou hodnotu „X“ platí.

 X = (-1)^s × 2^E-127 × (1 + Q)

kde:

 E = 2⁷ × e₇ + 2⁶ × e₆ + … + 2¹ × e₁ + e₀
 Q = m₁ × 2⁻¹ + m₂ × 2⁻² + … + m₂₂ × 2⁻²² + m₂₃ × 2⁻²³

Můžeme si povšimnout, že místo aby mantisa obsahovala bit m₀, tak se k ní vždy přičítá jednička. Tento „skrytý bit“ umožňuje efektivnější kódování a porovnávání. Díky absenci m₀ je vyloučena možnost zakódovat stejné číslo mnoha různými způsoby. Současně bychom se tím však zbavili možnosti zakódovat číslo nula. Proto výše uvedený základní vzorec platí pouze když je E v mezích 1 až 254, hodnoty E=0 a E=255 jsou použity pro vyjádření speciálních případů, kdy nelze výsledek operace pomocí výše uvedeného vzorce zakódovat:

podmínka	hodnota	poznámka
E = 1 až 254	X = (−1)^s × 2^E−127 × (1 + Q)	základní formát
E = 0, Q ≠ 0	X = (−1)^s × 2⁻¹²⁶ × Q	denormalizovaná čísla
E = 0, Q = 0, s = 0	X = 0	kladná nula
E = 0, Q = 0, s = 1	X = 0	záporná nula
E = 255, Q = 0, s = 0	X = +∞	kladné nekonečno (výsledek byl příliš vysoký)
E = 255, Q = 0, s = 1	X = −∞	záporné nekonečno (výsledek byl příliš nízký)
E = 255, Q > 0	X = NaN	není číslo