Osoby czytające wydania polityki

Wiarygodność w czasach niepewności

Wypróbuj za 11,90 zł!

Subskrybuj
Nauka

Znikające strony

Jak archiwizować internet?

Archiwizacja publicznych stron WWW nie przysparza większych problemów. Ogromnym wyzwaniem dla archiwistyki Webu jest natomiast archiwizowanie mediów społecznościowych. Archiwizacja publicznych stron WWW nie przysparza większych problemów. Ogromnym wyzwaniem dla archiwistyki Webu jest natomiast archiwizowanie mediów społecznościowych. Chris Clor/Blend Images / Getty Images
W internecie łatwo coś umieścić, ale równie łatwo – skasować. Dlatego tak ważne są sieciowe archiwa.
Dziś archiwistyka Webu jest dynamicznie rozwijającą się dziedziną wiedzy.Gajus-Images/PantherMedia Dziś archiwistyka Webu jest dynamicznie rozwijającą się dziedziną wiedzy.

Upadek wież WTC zaatakowanych przez terrorystów 11 września 2001 r. dokumentowała olbrzymia liczba cyfrowych fotografii i filmów, a miliony komentarzy interpretowały go w internecie. Niedługo potem amerykańskie Centrum Historii i Nowych Mediów (CHNM) zaczęło gromadzić te źródła w archiwum cyfrowym, które w 2003 r. stało się częścią zbiorów Biblioteki Kongresu.

Już wtedy nie były to działania ani wyjątkowe, ani nowatorskie – w początkach XXI w. funkcjonowało przynajmniej kilka dużych programów archiwizacji stron WWW, wśród których wyróżniały się swoim globalnym zasięgiem działania fundacji Internet Archive. Jej założyciel, programista i inwestor Brewster Kahle, od 1996 r. archiwizował dostępne serwisy internetowe i publikowane online oprogramowanie. W artykule w „Scientific American” z marca 1997 r. bezpośrednio nawiązywał do starożytnej Biblioteki Aleksandryjskiej, mającej gromadzić wszystkie współcześnie dostępne teksty. Fundacja Internet Archive miała być jej następczynią w erze cyfrowej i zabezpieczać na masową skalę publicznie dostępne zasoby WWW, by mogły być w przyszłości wykorzystywane w badaniach i edukacji. Aby tego dokonać, dysponując odpowiednim zapleczem technicznym, wypuszczał do internetu tzw. crawlery, programy sczytujące i kopiujące strony WWW. Ponieważ rozpoznawały one linki umieszczane w ich treści, potrafiły przechodzić z jednego adresu URL na drugi i w ten sposób budować ogromne archiwum. Dziś Internet Archive przechowuje ponad 284 mld pojedynczych stron WWW, plików txt i pdf publikowanych w internecie od połowy lat 90. Przeglądać je można w darmowej usłudze Wayback Machine.

Nie tylko nostalgia

Dziś, po 20 latach od założycielskiego artykułu w „Scientific American”, archiwistyka Webu jest dynamicznie rozwijającą się dziedziną wiedzy.

Polityka 12.2017 (3103) z dnia 21.03.2017; Nauka; s. 72
Oryginalny tytuł tekstu: "Znikające strony"
Reklama