BLOGÁSZAT, napi blogjava: "AZ INTERNET NEM FELEJT", DE EGYRE NEHEZEBB LESZ MEGTALÁLNUNK RAJTA, AMIT KERESÜNK

2018. február 12., hétfő

"AZ INTERNET NEM FELEJT", DE EGYRE NEHEZEBB LESZ MEGTALÁLNUNK RAJTA, AMIT KERESÜNK

HVG ONLINE - TECH
Szerző: ILLÉNYI BALÁZS
2018.02.12.

Megkezdődhet a magyar internettartalmak módszeres mentése – évekkel a hasonló külföldi kezdeményezések után, és csak akkor, ha elhárítanak számos technikai és jogi akadályt.

Az első szoftver megtervezi és elindítja, a második pedig elvégzi a mentést. A harmadik elmenti azt is, amire a második nem volt képes, a negyedik segítségével pedig a felhasználók megnézhetik, mi került az archívumba. Már ha került egyáltalán valami. Mert igen gyakran előfordul, hogy hiba történik, és csak részlegesen vagy sehogy sem tudják menteni egyik-másik oldalt. Valahogy így működik most az internetarchiválás fáradságos folyamata, amellyel mostanában az Országos Széchényi Könyvtár (OSZK) szakemberei is küszködnek.

Egy évtizednyi tervezgetés után egy munkacsoport ezekben a hónapokban készíti elő, hogy (remélhetőleg) jövő évtől módszeresen tudják menteni a magyar interneten fellelhető tartalmakat. Erre annál is nagyobb szükség van, mert bár inkább azt szokás emlegetni, hogy „az internet nem felejt”, egy-egy weboldal átlagos élettartama mindössze egy-két hónap, aztán eltűnik vagy megváltozik. A hírportálok esetében pedig ez az idő sokszor csak egy-két napnyi. Az elmúlt két évtizedben folyamatosan nőtt a kizárólag az interneten megjelenő (majd onnan eltűnő) tartalmak aránya.

Korlátozott kereshetőség

A világ legnagyobb internetes archívuma, a San Franciscó-i székhelyű Internet Archive (IA) nonprofit szervezet 1996 óta rendszeresen készít ugyan mentéseket, de az sem elég, hogy már több mint 300 milliárd weboldalt gyűjtött össze. Az információk mentése szórványos (ami például egy bizonyos újságcikk megtalálását igen valószínűtlenné teszi), és a tartalom nincs indexálva. Ezért nem működik az olyan címszavas kutakodás, mint a megszokott internetes keresőgépeknél, hanem csupán az található meg, amiről a kíváncsiskodó már tud valamit: dátum, internetcím (URL) és – tavaly óta – az oldal neve alapján lehet keresgélni.

A teljes szövegű keresés a tervezett reprezentatív (vagyis lehetőleg teljes körű) magyar internetmentések esetében sem fog működni, hiszen azokat hasonló módszerrel és szoftverrel végzik majd, mint az IA gyarapítását – magyarázza az OSZK-s munkacsoport vezetője, Drótos László főkönyvtáros. A szakmában webaratásnak nevezett művelet kulcsszereplője, a Heritrix nevű szoftver válogatás nélkül „dobálja” egy fájlba a talált adatokat, aztán lezárja ezt a „tartályt”, amikor elér egy megadott méretet, mondjuk egy gigabyte-ot. Az ebben lévő tartalom indexálva lesz ugyan, és készíthetők róla statisztikai kimutatások, sőt akár a benne található linkek kapcsolati hálója is összerakható, de a benne lévő szavakra keresni már nem lehet. Ráadásul, mivel az aratások párhuzamosan rengeteg honlapon zajlanak, egy weboldal részei akár több konténerbe is kerülhetnek...

ITT OLVASHATÓ

Nincsenek megjegyzések:

Megjegyzés küldése

Megjegyzés: Megjegyzéseket csak a blog tagjai írhatnak a blogba.