Már szinte minden papíron levő érték digitalizálva van

Interjú Biszak Sándorral, az Arcanum alapítójával és ügyvezető igazgatójával

Az Arcanum a világ egyetlen olyan adatbázisa, amelyben arcfelismeréssel lehet keresni
Az Arcanum digitális adatbázisról minden bizonnyal sokan hallottak már. Az 1989-ben Magyarországon alapított cég többféle adatbázist hozott létre, célja az írott kultúra digitalizálása. Térképeket, könyveket, újságokat, közgyűjteményeket tesznek kutathatóvá az interneten, ami főként kutatók munkáját könnyíti meg, ugyanakkor magánszemélyeknek is érdekes lehet, hiszen a manapság rendkívül népszerű családfakutatásban segíthet, emellett helytörténészek is értékes információkhoz juthatnak az Arcanum legnépszerűbb adatbázisa, a digitalizált újságokat tartalmazó gyűjteményén keresztül. Az adatbázisok létrehozásáról és működtetéséről, romániai jelenlétükről Biszak Sándort, az Arcanum alapítóját és ügyvezető igazgatóját kérdeztük Bukarestben abból az alkalomból, hogy részt vettek Románia egyik legnagyobb könyvvásárán, a Bookfesten. Romániában is egyre több a felhasználó, több mint 15 millió román oldalt digitalizáltak már.

– Hogyan fogadták a Bookfesten, ahol külön standja volt az Arcanumnak?

– Jó alkalom volt megjelenni egy ilyen rendezvényen, mert nagy mennyiségű digitalizált anyagunk van – több mint 15 millió román oldalt digitalizáltunk –, ezért Romániában is egyre több a felhasználónk. Úgy éreztük, elég erősek vagyunk ahhoz, hogy személyesen is megmutassuk magunkat. Ez volt az első külföldi bemutatkozásunk ilyen eseményen. Most kezdtünk el dolgozni szlovák, lengyel, jugoszláv anyagokon, így oda még korai menni. Kellemes élményeink voltak Bukarestben, hiszen volt érdeklődés a standunk iránt. Alapvetően kétfajta érdeklődő jött. Volt olyan látogató, aki már használja az Arcanum-adatbázisokat, és eljött megköszönni, hogy végezzük ezt a munkát. Mások viszont nem ismerték szolgáltatásainkat, aztán röpke tízperces bemutató fellelkesítette őket, másnap többen visszajöttek, és már elő is fizettek. Sok mindenre használhatják adatbázisainkat, segíthet a családfa- és a helytörténeti kutatásokban, ugyanakkor történészeknek vagy néprajzosoknak is hasznára válhat. Az egyik román felhasználó azt mondta, az ő álma az volt, hogy ilyen adatbázisban kutathassa Szilágy megye egyik falujának történetét és azon belül családját.

– Hány adatbázisuk van?

– Az újságos adatbázis mellett van nagyszerű térképes adattárunk, amelyben 18–19. századi egykori részletes térképek vannak, itt a teljes Romániáról és a Habsburg Birodalomról lehet térképeket találni, amelyeken minden egyes falu minden egyes háza megtekinthető. Van a Hungaricana nevű adatbázis, ami több mint 100 közgyűjtemény (könyvtár, levéltár, múzeum) adatait tartalmazza, itt festményektől kezdve középkori okleveleken keresztül képeslapokig sok minden megtalálható. A teljes magyar népzenei és népdalgyűjtemény – Kodály Zoltán és Bartók Béla gyűjtései is egyebek mellett –, ami több mint ötezer óra hanganyagot jelent. Illetve van még a Szaktárs nevű adatbázis, ami a szakkönyvkiadók társulása, több mint 30 könyvkiadó összes könyvét tartalmazza. És van egy ötödik is, amelyben a régi CD-gyűjteményünket tettük közkinccsé. Itt a felhasználók megtalálhatják a Biblia különböző verzióit, verstárat, amely 50 költő összes versét tartalmazza. Ezeket ingyenesen hozzáférhetővé tettük, hiszen már senkinek nincs CD-ROM olvasója. Ez az adatbázis is óriási népszerűségnek örvend, a költészet napján akár százezer látogatónk is van a honlapunkon.

– Mit tud elmondani a felhasználók profiljáról?

– A legtöbb adatbázisunkat főleg a szakmabeliek, kutatók használják. Kivételt képez a legnagyobb, az újságos adatbázisunk, amely nyáron eléri a 60 millió oldalt, amiből körülbelül 40 millió oldal magyar nyelvű újság. Több mint ötezer címünk van. Itt megtalálhatók a legnevesebb és legnagyobb országos lapok, így például a Pesti Napló, a Pesti Hírlap, a Népszabadság, a Magyar Nemzet, a Népszava és sorolhatnám hosszasan, de nagyon sok erdélyi lap is. Már 15 millió román oldallal rendelkezünk, ami nagyon sok, hiszen mi vagyunk a legnagyobb román adatbázis úgy, hogy közel sincs ekkora a piacon. Itt megtalálhatók a második világháború előtti legjelentősebb román újságok, és nagy örömünkre szolgál, hogy most már egyre több mai kiadó is megkeres, hogy szeretné, ha kiadványa bekerülne az adatbázisba. Ez a legnépszerűbb termékünk, ezt nemcsak kutatók használják, hanem magánszemélyek is, akik érdeklődnek a helytörténet iránt, vagy családjukat kutatják. Örömömre szolgál, hogy az Observator cultural is elérhető lesz az adatbázisunkban. 

– Hogyan fogadták Romániában? Nem kellett megküzdeniük a „mit is akarnak itt ezek a magyarok” előítélettel?

– Mi is ezt gondoltuk, hogy furcsa lesz, de nem tapasztaltunk semmilyen ódzkodást. Úgy kezdődött, hogy Marosvásárhelyen digitalizáltuk az ott fellelhető magyar nyelvű lapokat, és amikor elfogytak – hiszen mi havonta egymillió oldalt, évente 12-15 millió oldalt tudunk digitalizálni –, a Maros Megyei Könyvtár igazgatónője felajánlotta, hogy folytassuk a román nyelvű újságokkal. Így az indulás mentes volt mindenféle problémától. Ezt követően megkerestük a romániai megyei és egyetemi könyvtárakat, és felajánlottuk nekik szolgáltatásunkat. Találkoztunk két kiváló emberrel, Răzvan Poppal, a nagyszebeni Astra Könyvtár igazgatójával és Ioan Milicăval, a Jászvásári Központi Egyetemi Könyvtár igazgatójával, akik nyitottak voltak az együttműködésre, és akik – a legnagyobb örömömre – általam barátkoztak össze. Ez nagyot lendített a román újságok adatbázisán.

– A román lapok gyűjteményét mennyire volt nehéz feltérképezni?

– Ez Magyarországon is nehéz. A legnagyobb probléma az, hogy hiányosak az anyagok, egy részük már eltűnt, sosem fog előkerülni. Kedvenc példám a Tolnai Világlapja, amely minden polgári családnál megvolt, több mint százezer példányban bocsátották ki. Ennek ellenére az 1921-es évfolyam sehol nem található meg. Három darab lapszám van a nemzeti könyvtárunkban, a többi eltűnt, tehát ezzel szembe kell néznünk, és lassan listát kell vezetnünk, hogy mi az, ami örökre elveszett. Romániában nagy szerencsénk, hogy a könyvtárak ki tudják egészíteni egymás anyagait. Ha valami hiányzik a jászvásári egyetemi könyvtárban, akkor azt meg tudjuk nézni Nagyszebenben. Persze így is még rengeteg anyag van, amit pótolni kell. De nincs mit tenni, hiszen az írásos emlékeink bizony pusztulnak és eltűnnek.

– Ön vegyész, hogyan vezetett az útja a digitalizálás felé?

– Már az egyetemen kiderült, hogy vegyésznek nem vagyok alkalmas, ezért az elmélet fele léptem az egyetemen, fizikai kémia, elméleti kémia és kvantumkémia volt a területem. 1983-ban végeztem, majd a Richter Gyógyszergyárba kerültem – akkor még Kőbányai Gyógyszergyárnak nevezték –, és ott egy csodálatos világ került elém. Kagylós telefonon felhívtuk rádión Kaliforniát úgynevezett csomagkapcsolt hálózaton keresztül, és így fantasztikus kémiai adatbázisokhoz fértünk hozzá. Lerajzoltam egy benzolgyűrűt, és akkor azt mondtam, hogy az 5-ik pozícióban legyen kén, a 6-ikban pedig nitrogén és lézernyomtatón keresztül csodálatos nyomatot kaptam azokról a vegyületekről, amelyek ezt a struktúrát tartalmazzák, sőt mellette ott volt az irodalma, hogy hol, melyik újságban írtak erről a területről. Elcsodálkoztam, hogy ha magyar adatot akarok szerezni egy magyar szabadalomról, akkor Amerikába kell mennem. Ezért megfogalmazódott bennem, hogy kellene magyar adatbázisokat csinálni. Az elején floppy-lemezeken hordtuk körbe az adatbázist havonta, és a gyógyszergyárak előfizettek rá. 

Biszak Sándor: „Az írott kultúra digitalizálásával 80 százaléknál tartunk, de ezt minden évben elmondhatom, mert mindig bővül a kör, folyton előkerülnek újabb iratok, újságok…”

1989-ben alapítottuk meg az Arcanumot. A CD-lemez hazai elterjesztése volt a célunk, és érdekes volt, mert a szabadalmi hivatallal közösen hoztuk létre a céget. Ez az egész olyan nonszensz így utólag, hogy a szabadalmi hivatal magánszeméllyel alapított betéti társaságot. Én hoztam ötezer forintot – mert annyi volt akkor a minimális alaptőke –, ők meg egy asztalt, mert valamit nekik is hozniuk kellett. Gyönyörű sikereket értünk el a cédékkel, ami annak is köszönhető, hogy jött a rendszerváltozás, az európai szabadalmi hivatal be akarta vonni a kelet-európai országokat a különböző nemzetközi projektekbe, így minket is támogattak.

– A technológia rohamosan fejlődött, mikor váltottak?

– Későn, amit picit szégyellek is. A CD után jött a DVD és a blue-ray. Egyre több adatunk volt. Összehasonlításként mondom, hogy a Nyugatot az akkori körülmények között fél év alatt lehetett digitalizálni, most 1–2 napba telik. Jelenleg automatikus szövegfelismeréssel készülnek az adatbázisok, beszkenneljük a képeket jó minőségben, nagy felbontásban, és az automatikus szövegfelismerő programokkal a képet szöveggé alakítjuk. Kétrétegű PDF-et készítünk, a felső réteg a kép, alatta pedig az automatikusan felismert szöveg van. Ennek köszönhetően lehet keresni a dokumentumokban. Ez a titka mindennek, hiszen sok digitalizáló intézmény elbukik amiatt, hogy az adatbázisban való keresés lehetőségét megspórolja, és akkor képként lehet nézegetni az újságokat, ami persze jó, de a mi sikerünk titka mégis a kereshetőség, vagyis az, hogy minden egyes kifejezés kereshető. Így teljesen új életre kelnek az újságok, és megkönnyíti a felhasználó dolgát. Nagyon későn léptünk be az internetes világba, nem nagyon hittünk benne, úri huncutságnak gondoltuk, és még a 2000-es évek elején is a CD-t és DVD-t használtuk tárolásra. Későn váltottunk, de előnyt jelentett, hogy nagy adatmennyiségünk volt az akkori időkhöz viszonyítva. 

Tevékenységünket végig kísérte az az elvárás, amit megtanultam, hogy jól kell tudni keresni az adatbázisokban. Az internet korában is sokszor előfordult, hogy beléptek új cégek, fejlesztések, de elhaltak, mert nem voltak eléggé megalapozva. Mi, úgy érzem, megalapozott tudással léptünk be a piacra, és viszonylag gyorsan az élre kerültünk Magyarországon. A tömeges adatfeldolgozás és a jó keresés meghozta a gyümölcsét. Jelenleg a felhasználók is segítenek, hogy a kevésbé ismert újságokat is feldolgozzuk. Kezdetben sokan panaszkodtak, hogy sok mindent nem találnak, például a baromfifeldolgozók újságját. Egyébként nemrég a vágóállat-tenyésztési lapot dolgoztuk fel, tehát vannak ilyen réteglapok is, amiről nem is tudtunk, hogy léteznek, ha nem kerestek volna meg a gyűjtőik.

– Egy interjúban azt mondta, hogy fogytán a digitalizálható értékes anyag. Mennyire kellene pesszimisták legyünk?

– Semennyire. Inkább optimizmusra ad okot, hogy már szinte minden papíron levő érték digitalizálva van. Esetleg azért lehetünk pesszimisták, hogy mit fogunk jövőre digitalizálni. Körbeért ez az egész történet, mert éppen a múlt hónapban fejeztük be a magyar szabadalmi állományt, a magyar szabadalmak teljes digitalizálását. Jó hír az is, hogy véget ért a Magyarországra vonatkozó és Magyarországon tartott, 1526 előtti oklevelek digitalizálása, ami a legértékesebb állományunk. Ennek a 108 ezer oklevélnek a feldolgozása, amit a nemzeti levéltárban őriznek, készen áll a feldolgozásra. Szerintem akkor kezdődik el az igazi feldolgozási munka, amikor digitálisan már minden oklevél elérhető. A kézzel írt latin nyelvű oklevelek feldolgozására még egy picit várni kell, bár ennek is egyre közelebb van a lezárása. Mindig azt mondom, hogy az írott kultúra digitalizálásával 80 százaléknál tartunk, de ezt minden évben elmondhatom, mert mindig bővül a kör, folyton előkerülnek újabb iratok, újságok. Most közösségi lapokat kértünk be, ezért szinte lehetetlenség megállapítani, hogy mi a száz százalékos határ. 

– Romániában hol tartanak?

– Itt a legnagyobb kérdés az, hogy tudunk-e együttműködő partnereket találni, mert az Astra könyvtárnak is lassan a végére járunk. Nagymértékben függ a sikerünk attól, mely könyvtárak fognak együttműködni velünk. Ez mostantól már csak a román könyvtárakon múlik. Nagyváradon például nem sikerült együttműködést kialakítani a megyei könyvtárral. Egyre többen mondják, hogy létre kellene hozni egy céget, és valahol az ország közepén ki kellene alakítani egy digitalizáló központot. Mert jelenleg úgy dolgozunk, hogy a gyűjteményeket elszállítjuk Budapestre és visszahozzuk, de Romániában a nagy távolságok miatt ez egyszerűen menedzselhetetlen. Jó lenne feldolgozni az összes megyei lapot, egyelőre Maros, Kovászna, Szilágy, Krassó-Szörény és Dolj megyében sikerült ez. A magyar nyelvű lapok jelentős részét már digitalizáltuk. Összességében nem állunk rosszul, de a teljességtől még messze vagyunk.

– Könyveket is digitalizálnak, itt mi a határ?

– A régi nagy klasszikus sorozatokat, amelyeket megtalálunk a Széchenyi Könyvtárban, igyekszünk mind megcsinálni. A könyvek tömeges digitalizálásánál azonban hiányzik valami, hiszen nagy mennyiségű könyvre van szükség, hogy a digitalizálás hatékony legyen. Jó lenne ezer színháztudományi, ezer orvosi és ezer más témájú könyvet feldolgozni, tehát valamilyen téma köré kellene csoportosítani. Ezt a kiválasztást nagyon nehéz megcsinálni, szinte lehetetlen eldönteni, hogy mit érdemes digitalizálni, és mit nem. Napi ötvenezer oldal kellene. Érdekes módon tehát a könyvek tömeges digitalizálását egyelőre ez a kiválasztás akadályozza, hogy mi az, ami minimális érdeklődésre számot tart és nincs meg már. 

– A mesterséges intelligencia fejlődésétől mit remélnek, hogyan segítheti a munkájukat?

– Mesterséges intelligenciát már most is használunk például az arcfelismerésnél, ami nagy sikernek örvend, hiszen egy rokon fényképét feltölthetjük az adatbázisba és a rendszer kiadja a rá hasonlító személyek fényképét, aztán majd eldönthetjük, hogy ő az vagy nem. A miénk a világ egyetlen olyan adatbázisa, amelyben arcfelismeréssel lehet keresni. Ez hasznos azoknak, akiknek nagy mennyiségű fotójuk van, és nem tudják azonosítani a személyeket. Ez a keresési mód a mesterséges intelligencián alapszik. Viszont van egy másik kereső rendszerünk, ami nem mesterséges intelligencián alapul, de ezt harminc év alatt a tökélyre fejlesztettük. Ennek a neve újságszegmentálás, ami abban segít, hogy főleg az A2-es méretű újságokban hatékonyan tudjon keresni a rendszer, elkülönítse a hasábokat és tudja, hogy milyen sorrendben következnek. Mert ha ezeket nem tudja felismerni, akkor a keresés összeomlik. A hasábokat csak manuális munkával tudtuk kijavítani. Az elmúlt két évben a fiamnak és az általa verbuvált kis csapatának sikerült olyan módszert kidolgozni, ami a világ legtökéletesebb szegmentáló programja. Mi vagyunk az elsők, akiknek sikerült ezt a technológiát kifejlesztenünk a mesterséges intelligencia segítségével. A mormonoknak hatalmas adatbázisuk van, nekik sikerült eladnunk ezt a technológiát. Kicsit szomorú vagyok, hogy most már nem mi vagyunk az egyetlenek a világon, de ugyanakkor örülök, hogy ők is a mi technológiánkat használják. Például nagyon fontos a tulajdonnév felismerése, hogy ha beírjuk Petőfi Sándor vagy Mihai Eminescu nevét, akkor ne adjon ki minden utcanevet, hanem csak a tényleges személynevet.

– Bizonyára minden digitalizálásban dolgozót foglalkoztat az a kérdés – amit feltételezek, sokan fel is tesznek –, hogy mennyire vannak biztonságban az adatok. Látjuk, hogy a nyomtatott kultúra sincs teljesen biztonságban, de a digitális adatbázisokat hogyan tudják biztonságossá tenni?

– Valóban sokan megkérdezik ezt, és ilyenkor mindig visszakérdezek: tudjuk, mi van a nyomtatott anyagainkkal? Nagyon könnyű kipécézni ezt a veszélyt, ami valóban létezik, de a papírdokumentumok sincsenek nagyobb biztonságban. Most ne beszéljünk háborúkról, földrengésekről, mi a jelenlegi keretek között igyekszünk mindent megtenni, hogy a lehető legnagyobb biztonságban legyenek az adatok. Ezért a világ legbiztonságosabb rendszerével, az Amazonnal dolgozunk együtt, amely támogatott minket mentorprogram keretében, és az ő rendszerük bizonyult a legbiztonságosabbnak. Az adatok mellett természetesen a szoftvereket is igyekszünk biztonságba helyezni, mert ezek nélkül az adat semmit sem ér. Összességében azt tudom elmondani, hogy az általunk ismert legjobb módszerrel próbáljuk megvédeni az adatbázisokat a felhasználók számára.

(Az interjú teljes egészében meghallgatható a Bukaresti Rádió (www.bukarestiradio.ro) Észpresszó című műsorának június 8-i és 15-i kiadásában.)