Preskočiť na obsah

Rovina (Unicode)

z Wikipédie, slobodnej encyklopédie

Rovina (anglicky plane ) v štandarde Unicode je spojitá skupina 65536 ( = 2 16 ) kódových bodov, ktoré sa líšia iba v najnižších 16 bitoch . Unicode predpokladá použitie najviac 17 rovín identifikovaných číslami 0 až 16 desiatkovo, ktoré zodpovedajú hodnotám 00–10 šestnástkovo prvých dvoch číslic v šesťcifernom zápise hodnoty kódového bodu ( U+ hh hhhh ). Prvá rovina (s číslom 0) sa nazýva základná viacjazyčná rovina, BMP ( anglicky Basic Multilingual Plane ), ďalšie roviny (1–16) sa nazývajú „doplnkové“ ( anglicky supplementary planes ), [1] alebo úsmevne „astrálne roviny“. Unicode verzia 8.0 definuje priradenie kódových bodov patriacich do piatich polrovín.

17 rovín môže pojať 1114112 kódových bodov. Toto čudne vyzerajúce číslo (ktoré nie je mocninou 2 ) je maximálnou hodnotou, ktorú možno zobraziť pomocou kódovania UTF-16 . [2] Predpokladá sa, že 1114112 kódových bodov bude stačiť, aj keby sa objavili doposiaľ neznáme písma s desiatkami tisíc znakov; Unicode Consortium vydalo vyhlásenie, že uvedený limit nebude nikdy zmenený. [3] Kódovanie UTF-8 bolo navrhnuté pre kódovanie až 2 31 kódových bodov (32768 rovín) pôvodného ISO/IEC 10646 kódy dĺžky 1 až 6 bytov; pre 17 rovín stačí postupnosti maximálnej dĺžky 4 byty . [4]

Roviny sú ďalej rozdelené na Unicode bloky, ktoré na rozdiel od rovín nemajú pevnú veľkosť. Unicode 5.0 definuje 262 blokov s veľkosťou od 16 kódových bodov (túto veľkosť má jedenásť blokov) po 65536 kódových bodov (túto veľkosť má Doplnková oblasť pre súkromné použitie A a Doplnková oblasť pre súkromné použitie B, ktoré zaberajú celú rovinu 15 a 16). Jednotlivé bloky boli predbežne vyhradené pre všetky známe súčasné aj historické písma [5] a pokrývajú 24 percent možného priestoru kódových bodov.

Počty priradených znakov

[upraviť | upraviť zdroj]
Priradené znaky v Unicode verzie 8.0
Rovina Pridelené kódové body [1] Priradené znaky [2]
0 BMP 65392 55181
1 SMP 14000 11833
2 SIP 53424 53386
3 TIP 16672 799
14 SSP 368 337
15 PUA-A 65536
16 PUA-B 65536
Celkom 264256 120737


Základná viacjazyčná rovina

[upraviť | upraviť zdroj]
Základná multilinguálna rovina (BMP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Základná viacjazyčná rovina, BMP (anglicky Basic Multilingual Plane ) je prvá rovina Unicode (rovina číslo 0) ktorá obsahuje znaky pre takmer všetky moderné jazyky a veľký počet symbolov . Primárnym cieľom BMP je unifikácia predchádzajúcich znakových sád a znakov pre písanie.

Prvé bloky sú predurčené pre písma používajúce latinku, ďalšie pre ostatné európske a ázijské písma. Väčšina priradených kódových bodov v BMP slúži na kódovanie čínštiny, japončiny a kórejčiny ( CJK ).

Oblasti vyšších ( U+D800–U+DBFF ) a nižších ( U+DC00–U+DFFF ) náhradných hodnôt ( anglicky High a Low Surrogate ) sú rezervované pre kódovanie znakov mimo BMP pomocou tzv. náhradných dvojíc 16 bitových kódov pozostávajúcich z jednej vyššej a jednej nižšej náhradnej hodnoty. Unicode znaky nikdy neboli ani nebudú z tohto rozsahu priradené samostatným kódovým bodom.

Blokom Unicode bolo v BMP pridelených už 65392 zo 65536 kódových bodov, pričom v nepridelených rozsahoch zostáva iba 144 kódových bodov (64 kódových bodov v rozsahu 0860 až 089F, 64 kódových bodov v rozsahu 1C80 až 1CBF a 12 kódových bodov.

BMP 8.0 obsahuje v Unicode celkom 160 blokov.

Doplnková viacjazyčná rovina

[upraviť | upraviť zdroj]

Doplnková viacjazyčná rovina (SMP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Doplnková viacjazyčná rovina, SMP ( anglicky Supplementary Multilingual Plane ) má číslo 1; obsahuje historické písma ako napríklad Lineárne písmo B, Egyptské hieroglyfy a klinové písmo, ďalej historické a moderné hudobné notácie, matematické alfanumerické symboly, Emoji a iné sady piktografov, reformované pravopisy ako Shavian a Deseret a herné symboly pre hracie karty, Mahjong a domino .

V Unicode 8.0 je v SMP definovaných 93 blokov.

Doplnková ideografická rovina

[upraviť | upraviť zdroj]
Doplnková ideografická rovina (SIP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Doplnková ideografická rovina, SIP ( anglicky Supplementary Ideographic Plane ) je rovina číslo 2; ktorá je určená pre CJK Ideografy, väčšinou CJK zjednotené ideografy, ktoré neboli obsiahnuté v starších štandardoch znakových kódov.

V Unicode 8.0 SIP obsahuje nasledujúcich 5 blokov:

Nepriradené roviny

[upraviť | upraviť zdroj]

Roviny 3 až 13: týmto rovinám zatiaľ neboli priradené žiadne znaky. Rovina 3 je predbežne pomenovaná Terciárna ideografická rovina, TIP (anglicky Tertiary Ideographic Plane), ale v Unicode verzie 8.0 v nej nie sú priradené žiadne znaky.[6] Je rezervovaná pre symboly z písiem používaných v nápisoch na vešteckých kostiach, nápisoch na bronze, v malom pečatnom písme, prídavné jednotné ideografy CJK a ďalšie historické ideografické písma.[7]

Vzhľadom na nízky počet doposiaľ nepriradených písiem sa ani neočakáva, že by v dohľadnej dobe boli všetky tieto roviny použité, aj keď počet možných symbolov, ktoré by sa mohli objaviť mimo kontextu písiem, môže byť obrovský. V súčasnosti je 11 zo 17 rovín nepoužitých.

Doplnková rovina na špeciálne účely

[upraviť | upraviť zdroj]

Doplnková rovina na špeciálne účely, SSP ( anglicky Supplementary Special-purpose Plane ) je rovina číslo 14 ( E šestnástkovo ) a aktuálne obsahuje negrafické znaky. Prvý blok obsahuje znaky pre jazykové menovky určené na identifikáciu jazyka, ak jazyk nemôže byť indikovaný pomocou iných protokolov (napríklad atribútom xml:lang v XML ); tieto kódy sa neodporúčajú. Ďalší blok obsahuje selektory pre výber variant rôznych glyfov pre určitý znak, pokiaľ variant nemožno určiť z kontextu.

V Unicode 8.0 SSP obsahuje nasledujúce 2 bloky:

Oblasti na súkromné použitie

[upraviť | upraviť zdroj]

Doplnková oblasť pre súkromné použitie-A a Doplnková oblasť pre súkromné použitie-B ( anglicky Supplementray Private Use Area-A and B) sú roviny 15 a 16; tieto roviny sú voľné pre priradenie znakov inými inštitúciami ako je Medzinárodná organizácia pre normalizáciu a Unicode Consortium . Vo fontoch môžu byť použité pre glyfy neobsiahnuté v Unicode, napríklad pre zliatky (ligatúry), stavebné bloky iných glyfov alebo pre glyfy, ktoré zatiaľ súčasťou Unicode nie sú. Tieto znaky budú mať obmedzenú interoperabilitu; softvér a fonty podporujúce Unicode pravdepodobne nebude podporovať priradenie znakov iných výrobcov.

Referencie

[upraviť | upraviť zdroj]

Tento článok je čiastočný alebo úplný preklad článku Plane (Unicode) na anglickej Wikipédii.

  1. Unicode Consortium Glossary—Supplementary Planes
  2. Hodnota najvyšších štyroch bitov (wwww) v náhradnom páre je o jednotku menšia ako číslo Unicode roviny, tj. Unicode rovina = wwww + 1. Najvyššia hodnota, ktorú wwww môže reprezentovať je 1111binárne = Fšestnástkovo = 15desiatkovo. Rovina (15 + 1)=16 je preto najvyššia rovina, ktorú môžeme reprezentovať pomocou náhradných párov. Vďaka tomu možno náhradným párom reprezentovať kódový bod najviac 10 FFFFhex. Viď Tabuľka 3.5 „UTF-16 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. . Dostupné online.
  4. Viď Tabuľka 3.6 „UTF-8 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  5. Unicode roadmaps
  6. Unicode Data [online]. . Dostupné online.
  7. TIP Roadmap