Digitalizálás
Szövegdigitalizálás: egy dokumentum vagy szöveg írásjeleinek a számítógép által kezelhető kódsorrá alakítása.
Dokumentumdigitalizálás: egy dokumentum képének és szövegének a számítógép által kezelhető kódsorrá alakítása. Bele tartozhat még a struktúrájának és formai jellemzőinek kódolása is. A folyamat nehézségei: a speciális írásjelek kódolása, kép és szöveg elkülönítése stb.
Számítógépes szöveg: a számítógép nem szöveget tárol, hanem számol. (A szöveg is számok sorozata) A gép biteket kezel bináris elven. Minden információ kódolható bitek sorozatával. Az adatforgalom legelterjedtebb mértékegysége a 8 bites byte, ami 256 féle értéket vehet fel. Persze később elterjedt a hexadecimális számok használata is.
Alapfogalmak:
Kód (szám), Karakter (graféma), Glyph /font (betű képe), Kódrendszer/kódtábla (ASCII), Karakterkészlet (kódrendszerben kódolt karakterek készlete), Fontkészlet (a kijelzőn megjelenítendő képek, amik kódtáblához vannak rendelve)
Unicode: a karakterkódolás terén egyre nagyobb lett a káosz. Megnövekedett az igény egy univerzális kód kialakítására. Ez lett az Unicode, ami 1992-ben jelent meg először és mára már 6.0-nál tart. Felhasználta az ASCII változatait, 16 bitet használt eredetileg, de mára 4 byte-os. (kb. 100 ezer karaktert kódol)
Korai nyomtatványok OCR-ezése
Gondot okozott a karakterek felismertetése. Medieval Unicode Font Initiative az egyik megoldás. A korpusz publikálásakor másik probléma, hogy hogyan jelenjen meg az interneten, milyen formátumban és hogyan lehessen keresni benne. Megoldás az XML (eXtensible Markup Language).
Text Encoding Initiative (kódoló nyelv)