Informācijas un komunikācijas tehnoloģiju pamatjēdzieni
3. APARATŪRA
3.4. Informācijas kodēšana datoros
Sev apkārt esošo informāciju cilvēks ar maņu orgānu palīdzību (redzi, dzirdi, tausti) uztver analogā formā. Dators un tā ierīces parasti informāciju saņem, apstrādā, glabā un pārsūta ciparu jeb digitālā (digital) formā. Lai cilvēks varētu izmantot datoru, informāciju ir nepieciešams pārveidot, to kodējot.
Kodēšana (encoding) ir process, ar kura palīdzību informācija tiek pārveidota no analogās digitālajā formā.
Dekodēšana (decoding) ir pretējs process – informācijas pārveidošana no digitālās formas analogajā.
Binārā kodēšana
Tehniski visvieglāk datorā un informācijas nesējos ir realizēt divus stāvokļus, piemēram:
- elektroniskajās shēmās – sprieguma zema vērtība un sprieguma augsta vērtība;
- magnētiskajos datu nesējos – polarizācijas virziens S-N vai N-S (N – ziemeļi, S – dienvidi);
- kompaktdiskos – līdzena virsma vai iedobe.
Vienam no stāvokļiem piešķir skaitlisku vērtību viens, bet otram – nulle, piemēram:
- sprieguma augsts līmenis – 0;
- sprieguma zems līmenis – 1.
Tā kā tiek izmantoti tikai divi cipari, tad šo sistēmu sauc par divnieku jeb bināro skaitīšanas sistēmu.
2.4.1. Informācijas mērvienības
Informācijas mazākā mērvienība ir bits (bit – saīsinājums no binary digit) un to parasti apzīmē ar mazo burtu b.
Datu glabāšanā un apstrādē kā pamata mērvienību izmanto baitu. Baitu veido 8 biti (byte – saīsinājums no binary digits eight). Baita apzīmēšanai parasti izmanto lielo burtu B.
Ikdienā plaši izmanto lielākas mērvienības, taču ne vienmēr viennozīmīgi var noteikt, cik mazāko vienību tajās ir. Sākotnēji lielākās informācijas mērvienības veidoja, balstoties uz bināro skaitīšanas sistēmu un ņēma tuvāko skaitli tradicionāli citās mērvienībās izmantotajiem SI sistēmas prefiksiem, piemēram:
- kilometrs ir 1000 jeb 103 metri;
- kilobaits ir 1024 jeb 210 baiti.
Taču kopš 1998. gada standartizācijas organizācijas iesaka lietot tradicionālo SI kilo prefiksa vērtību 103 un, lai izvairītos no kilo mērvienības neskaidrības, agrākās binārās kilo mērvienības vietā lietot apzīmējumu kibi.
Nākamajā tabulā apkopoti biežāk izmantoto lielāko atmiņas mērvienību apzīmējumi:
Apzīmējums |
SI standarts |
Apzīmējums |
Vērtība |
kilobaits (KB) |
103 |
kibibaits (KiB) |
210 |
megabaits (MB) |
106 |
mebibaits (MiB) |
220 |
gigabaits (GB) |
109 |
gibibaits (GiB) |
230 |
terabaits (TB) |
1012 |
tebibaits (TiB) |
240 |
petabaits (PB) |
1015 |
pebibaits (PiB) |
250 |
Pašlaik ir sastopams gan SI standarta, gan arī agrāko bināro lielumu mērvienību lietojums.
2.4.2. Kodēšanas piemēri
Lai informāciju no analogās pārvērstu digitālajā un pēc tam iegūtu to pašu, no digitālās pārvēršot analogajā, ir nepieciešams izmantot noteiktu kodu. Kods ir nosacītu apzīmējumu kopa, kuru izmanto informācijas attēlošanai.
Dažādās tehnikas, zinātnes un kultūras jomās ir izstrādātas īpašas informācijas kodēšanas formas, piemēram:
- Braila raksts neredzīgajiem (piemērā latviešu valodas burtiem):
- mūzikas skaņu pieraksts ar notīm, alterācijas zīmēm, atslēgām u.c. simboliem, piemēram:
- matemātisko izteiksmju pieraksts, piemēram:
Visu veidu informācijas kodēšanai datorā izmanto bināro skaitļu kodus. Ciparu skaits koda skaitlī ir atkarīgs no tā, cik dažādi kodi ir jāiegūst. Ar vienu bitu var izveidot divus kodus: 0 un 1. Palielinot bitu skaitu par vienu, iegūs divreiz vairāk izmantojamo kodu, piemēram:
- no diviem bitiem var izveidot četrus kodus – 00, 01, 10 un 11;
- no trim bitiem var izveidot astoņus kodus – 000, 001, 010, 100, 011, 101, 110 un 111;
- no 8 bitiem (baita) var izveidot 256 kodus.
2.4.3. Teksta kodēšana
Tekstu kodē, katrai rakstzīmei piekārtojot kādu skaitli, piemēram, tā kārtas numuru rakstzīmju sarakstā. Eksistē vairāki teksta kodēšanas standarti, populārākie no kuriem ir ASCII, UNICODE un UTF.
ASCII kodu tabula
Pirmais populārākais datoros izmantotais teksta kodēšanas standarts ar nosaukumu ASCII (American Standard Code for Information Interchange) katras rakstzīmes kodēšanai izmanto 1 baitu (8 bitus). Ar 8 bitiem var nokodēt 256 rakstzīmes: lielos un mazos latīņu burtus, ciparus, pieturas zīmes, kā arī virkni speciālu simbolu, piemēram, „@”.
Pamata tabula satur 128 simbolus. Kodi no 0 līdz 31. un 127. kods ir dažādi vadības simboli, kuriem nav grafiska attēlojuma, piemēram, 10 (LF) – pāreja uz jaunu rindu, 13 (CR) – atgriešanās uz rindas sākumu, 7 (BEL) – skaņas signāls, 9 (TAB) – tabulācija.
Paplašinātajai tabulai (nākamie 128 simboli) tika veidoti dažādi varianti, lai nodrošinātu arī nepieciešamās nacionālās rakstzīmes, piemēram, latviešu valodai burtus ā, č, u.c. vai krievu valodas alfabētu.
UNICODE kodu tabula
Palielinoties interneta lietošanai, radās problēmas ar dažādo ASCII kodu tabulu lietošanu, tāpēc izveidoja universālu teksta kodēšanas standartu UNICODE. Tajā katru rakstzīmi kodē ar diviem baitiem, ar kuru palīdzību var iegūt 65 536 dažādus kodus. Šāds kodu daudzums ir pietiekams, lai varētu kodēt lielākai daļai pasaules valodu nepieciešamās rakstzīmes. Tabulas sadaļu piemēru fragmenti:
- latīņu burti:
- paplašinājums ar dažādu valodu specifiskajiem burtiem:
UNICIDE satur arī retāk lietojamu zīmju tā saucamās papildplaknes, piemēram, ēģiptiešu hieroglifiem:
UTF-8
Astoņu bitu UNICODE pārveidošanas formāts UTF-8 (8-bit Unicode Transformation Format) ir mainīga platuma kodējums. Tā kā UTF-8 var attēlot jebkuru standarta UNICODE simbolu un ir savietojams arī ar ASCII standartu, tad tas plaši tiek izmantots e-pastā, globālajā tīmeklī un citos teksta glabāšanas vai pārsūtīšanas lietojumos.
UTF-8 izmanto no viena līdz četriem baitiem uz vienu UNICODE simbolu:
- kodu intervālā no 0 līdz 127 ir vajadzīgs tikai viens baits, un visa ASCII kodu tabula UTF-8 kodējumā tiek attēlota bez izmaiņām;
- kodiem no 128 līdz 2027 izmanto divus baitus;
- kodiem no 2028 līdz 65 535 izmanto trīs baitus;
- papildplakņu kodiem izmanto četrus baitus.
2.4.4. Grafisko datu kodēšana
Gandrīz visus datorā veidotos, apstrādātos un apskatāmos attēlus var iedalīt divās lielās grupās:
- rastra grafika;
- vektorgrafika.
Rastra grafika
Rastra grafikā attēls tiek kodēts, tam „uzliekot” režģi un sadalot attēlu kvadrātiņos, ko sauc par pikseļiem (pixel). Par attēlu tiek glabāta informācija par tā garumu un platumu pikseļos un katra punkta krāsas kods.
Krāsu attēlus veido, kombinējot dažas pamatkrāsas. Eksistē vairāki kodēšanas veidi, piemēram:
- RGB – sarkana (Red), zaļa (Green), zila (Blue). Katrai no trim krāsām kodē 256 (0-255) krāsu toņus. Tādējādi iegūst vairāk nekā 16,5 miljonus dažādu krāsu toņu, un katra attēla pikseļa kodēšanai ir nepieciešami 24 biti (3 baiti). Lieto attēlošanai ekrānā, piemēram, monitorā:
- CMYK – Gaiši zila (Cyan), Purpura (Magneta), dzeltena (Yellow), melna (Key). Katrai no trim krāsām kodē 101 (0-100) krāsu toņus. Melno krāsu izmanto tumšuma pakāpes iegūšanai. Lieto iespiedtehnoloģijās, piemēram, krāsainajā tintes printerī.
Attēlu kodēšanai var izmantot arī mazāku bitu skaitu, taču tad iegūst mazāk krāsu toņu.
Vektorgrafika
Vektorgrafikā grafiskajam objektam ar matemātisku formulu palīdzību tiek uzdota tā forma un citi parametri, piemēram, līnijas biezums vai aizpildījuma krāsa.
Objektu definēšanas piemēri:
- objektu „riņķis” (circle) raksturo tā centra koordinātes (cx un cy) un rādiusa lielums (r), pildījuma krāsa (fill), līnijas krāsa (stroke) un līnijas biezums (stroke width), piemēram:
circle cx="100" cy="100" r="40"
fill="red" stroke="blue" stroke-width="2"
- objektu taisnstūris (rect) raksturo tā kreisā augšējā stūra koordinātes (x, y), platums (width), augstums (height), pildījuma krāsa (fill), līnijas krāsa (stroke) un līnijas biezums (stroke width), piemēram:
rect x="1" y="1" width="120" height="80"
fill="none" stroke="green" stroke-width="4"
2.4.5. Skaņu (audio) kodēšana
Skaņas veidojas gaisa svārstību ietekmē. Skaņai ir divi galvenie raksturlielumi:
- svārstību amplitūda, kas nosaka skaņas skaļumu;
- svārstību biežums, kas nosaka skaņas augstumu.
Skaņu pārveidot elektriskā signālā var, izmantojot, piemēram, mikrofonu.
Skaņu no analogā signāla digitālajā pārveido, ik pēc noteikta laika sprīža mērot elektriskā signāla lielumu un tam piešķirot bināru vērtību. Jo biežāk šos mērījumus veic, jo iegūst labāku skaņas kvalitāti. Viens mērījums sekundē ir viens hercs (Hz), bet 1000 mērījumu vienā sekundē – viens kilo hercs (KHz).
Tiek izmantoti arī citi skaņas kodēšanas veidi, piemēram:
- standarts MIDI (mūzikas instrumentu digitālā saskarne – Musical Instrument Digital Interface), kas izveidots skaņu sintezēšanai. Kodēts tiek atskaņojamās nots augstums, skaļums, ilgums un vēl citi parametri ;
- standarts MP3 kurš izveidots, lai varētu ievērojami samazināt skaņas datu apjomu, un tiek plaši lietots skaņas datņu glabāšanai un atskaņošanai. Mazāks apjoms tiek panākts, atmetot skaņas, ko cilvēks nedzird vai kas pārklājas ar citām skaņām.
2.4.6. Filmu (video) kodēšana
Digitālais video sastāv no rastra grafikas attēliem (kadriem), kas konstantā ātrumā nomaina viens otru. Digitālais video satur arī informāciju par skaņas ierakstīšanas veidu (katram kadram atsevišķi vai filmai kopumā) un kodēto skaņu.
Video izmēru nosaka:
- kadra platums pikseļos;
- kadra augstums pikseļos;
- krāsu dziļums bitos;
- kadru skaits sekundē (parasti 30);
- skaņa.
Digitālā video izmērs veidojas ļoti liels, tāpēc video glabāšanai, pārraidei un atskaņošanai izmanto kodēšanas standartus, kas ļauj samazināt video datu apjomu, piemēram:
- MPEG (Motion Picture Experts Group), no kuriem pašlaik populārākais ir MPEG-4. MPEG formāta atskaņošanu nodrošina jebkurš multimediju atskaņotājs;
- Flash, kas sākumā radīts dažādu demonstrējumu un reklāmu rādīšanai tīmekļa vietnēs, tagad kļuvis populārs video koplietošanas vietnēs, piemēram, YouTube.
Šo standartu izmanto arī TV translēšanai internetā, piemēram: