Pod informace o kódování v počítači se rozumí proces jeho přeměny na formulář, který umožňuje organizovat pohodlnější přenos, ukládání nebo automatické zpracování těchto dat. Na tento účel se používají různé tabulky. Kódování ASCII je první systém vyvinutý ve Spojených státech, který pracuje s textem v angličtině, který byl následně distribuován po celém světě. Popis, vlastnosti, vlastnosti a další použití článku jsou uvedeny níže.
Symboly na monitoru počítače nebo mobilní digitální gadget jsou tvořeny na základě sady vektorových tvarů různých značek a kódů, které umožňují najít mezi nimi charakter, který je třeba vložit na správném místě. Je to posloupnost bitů. Každý symbol musí tedy jednoznačně odpovídat množině nul a ty, které stojí v určitém, jedinečném pořadí.
Historicky první počítače byly anglicky mluvící. Pro kódování informací o znaku v nich stačilo použít pouze 7 bitů paměti, zatímco pro tento účel bylo přiděleno 1 bajt, sestávající z 8 bitů. Počet znaků, které počítač v tomto případě rozuměl, byl 128. Tyto znaky obsahovaly anglickou abecedu s interpunkčními značkami, čísly a některými speciální znaky. Anglické sedmbitové kódování s odpovídající tabulkou (kódová stránka), vyvinuté v roce 1963, bylo nazváno americkým standardním kódem pro výměnu informací. Obvykle pro jeho označení byla použita zkratka "ASCII Coding" a stále se používá.
Časem se počítačové počítače začaly široce využívat v neanglofonních zemích. V tomto ohledu existuje potřeba kódování, které umožňuje používání národních jazyků. Bylo rozhodnuto, že kolečko nevymyslíme a že základem je ASCII. Kódovací tabulka v novém vydání se výrazně rozšířila. Použití 8. bitu umožnilo překládat 256 znaků do počítačového jazyka.
Kódování ASCII má tabulku, která je rozdělena na 2 části. Všeobecně uznávaná mezinárodní norma se považuje za její první polovinu. Obsahuje:
Zvláštní vlastnosti kódování ASCII jsou rozdíl mezi písmeny "A" - "Z" spodních a horních registrů pouze s jedním bitem. Tato okolnost značně zjednodušuje konverzi registru a také jeho ověření, zda patří k danému rozsahu hodnot. Kromě toho jsou všechna písmena v kódovacím systému ASCII reprezentována vlastními abecedními sériovými čísly, které jsou v systému číselných znaků číslem 5, před kterým jsou u malých písmen 011 2 a horní číslice 010 2 .
Mezi funkce kódování ASCII lze počítat a prezentace 10 číslic - "0" - "9". Ve druhém číselném systému začínají 00112 a končí dvěma čísly. Takže 0101 2 je ekvivalentní desítkovému číslu pět, takže znak "5" je napsán jako 0011 01012. Na základě výše uvedeného můžete snadno převést binární desetinná čísla na řetězec ASCII přidáním bitové sekvence 00112 do každé hřbet vlevo.
Jak víte, k zobrazení textů v jazycích skupiny jihovýchodní Asie je vyžadováno tisíce znaků. Taková řada z nich není v žádném případě popsána v jednom bajtu informací, a proto ani rozšířené verze ASCII již nemohly uspokojovat rostoucí potřeby uživatelů z různých zemí.
Proto bylo nutné vytvořit univerzální kódování textu, jehož vývoj byl ve spolupráci s mnoha vedoucími představiteli globálního IT průmyslu vybudován konsorciem Unicode. Jeho specialisté vytvořili systém UTF 32. V něm bylo přiděleno 32 bitů pro zakódování 1 znaku, který tvořil 4 bajty informací. Hlavní nevýhodou bylo prudké zvýšení množství požadované paměti až čtyřikrát, což znamenalo mnoho problémů.
Ve většině zemí s úředními jazyky, které patří do indoevropské skupiny, je počet znaků rovný 2 32 více než nadměrný.
V důsledku další práce odborníků z konsorcia Unicode se objevilo kódování UTF-16. Stalo se tak možností konverze symbolických informací, které uspořádaly pro každého jak z hlediska požadované paměti, tak z hlediska počtu zakódovaných znaků. To je důvod, proč byl standardně přijat UTF-16 a vyžaduje, aby 2 bajty byly rezervovány pro jeden znak.
Dokonce i tato poměrně pokročilá a úspěšná verze Unicode měla některé nevýhody a po přepnutí z rozšířené verze ASCII na UTF-16 zdvojnásobila váhu dokumentu.
V tomto ohledu bylo rozhodnuto používat kódování s proměnnou délkou UTF-8. V tomto případě je každá písmena ve zdrojovém textu zakódována v pořadí od 1 do 6 bajtů.
Všechna znamení latinská abeceda v proměnné délce UTF-8 zakódované v jednom bajtu, jako v kódovacím systému ASCII.
Zvláštností funkce UTF-8 je to, že v případě textu v latině, aniž by byly použity jiné znaky, dokonce i programy, které nerozumí Unicode, budou stále umožňovat čtení. Jinými slovy, základní část kódování ASCII textu je jednoduše převedena na novou proměnnou délku UTF. Cyrilitické znaky v UTF-8 zaujímají 2 bajty a například gruzínské - 3 bajty. Vytvořením UTF-16 a 8 byl vyřešen hlavní problém vytvoření jediného kódového prostoru v fontech. Producenti písem od té doby potřebují pouze vyplnit tabulku s vektorovými formami textových symbolů podle svých potřeb.
V různých operačních systémech jsou preferovány různé kódování. Aby bylo možné číst a upravovat texty napsané v jiném kódování, používají se ruské textové konverzní programy. Některé textové editory obsahují embedded transcoders a umožňují vám číst text bez ohledu na kódování.
Nyní víte, kolik znaků je v ASCII a jak a proč byla vytvořena. Samozřejmě, dnes se standard Unicode stal nejrozšířenějším na světě. Nesmíme však zapomínat na to, že byl vytvořen na základě ASCII, takže byste měli ocenit přínos svých vývojářů v oblasti IT.