HTML

Információtörténet

Információ történet előadásblog.

Friss topikok

Linkblog

Archívum

Korai nyomtatványok digitalizálása. Antikva korpusz (Kalcsó Gyula)

Khronos 2010.12.18. 16:40

Digitalizálás

Szövegdigitalizálás: egy dokumentum vagy szöveg írásjeleinek a számítógép által kezelhető kódsorrá alakítása.

Dokumentumdigitalizálás: egy dokumentum képének és szövegének a számítógép által kezelhető kódsorrá alakítása. Bele tartozhat még a struktúrájának és formai jellemzőinek kódolása is. A folyamat nehézségei: a speciális írásjelek kódolása, kép és szöveg elkülönítése stb.

Számítógépes szöveg: a számítógép nem szöveget tárol, hanem számol. (A  szöveg is számok sorozata) A gép biteket kezel bináris elven. Minden információ kódolható bitek sorozatával. Az adatforgalom legelterjedtebb mértékegysége a 8 bites byte, ami 256 féle értéket vehet fel. Persze később elterjedt a hexadecimális számok használata is.

Alapfogalmak:

Kód (szám), Karakter (graféma), Glyph /font (betű képe), Kódrendszer/kódtábla (ASCII), Karakterkészlet (kódrendszerben kódolt karakterek készlete), Fontkészlet (a kijelzőn megjelenítendő képek, amik kódtáblához vannak rendelve)

Unicode: a karakterkódolás terén egyre nagyobb lett a káosz. Megnövekedett az igény egy univerzális kód kialakítására. Ez lett az Unicode, ami 1992-ben jelent meg először és mára már 6.0-nál tart. Felhasználta az ASCII változatait, 16 bitet használt eredetileg, de mára 4 byte-os. (kb. 100 ezer karaktert kódol)

Korai nyomtatványok OCR-ezése

Gondot okozott a karakterek felismertetése. Medieval Unicode Font Initiative az egyik megoldás. A korpusz publikálásakor másik probléma, hogy hogyan jelenjen meg az interneten, milyen formátumban és hogyan lehessen keresni benne. Megoldás az XML (eXtensible Markup Language).

Text Encoding Initiative (kódoló nyelv)

 

Szólj hozzá!

A bejegyzés trackback címe:

https://khronosinfotori.blog.hu/api/trackback/id/tr172524211

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása