Internet Archive 10.000.000.000.000.000 Byte archiviert

Datei:Internet Archive.jpg

Internet Archive 10.000.000.000.000.000 Byte archiviert

Websites und kulturelle Artefakte aus dem Netz für die Nachwelt: Das Internet Archive hat mittlerweile 10 Petabyte an Daten archiviert.

 

Mit dem Internet Archive will es Brewster Kahle späteren Generationen ermöglichen, Entwicklungen unserer Zeit nachzuvollziehen. Über die Way Back Machine können die gesammelten Websites abgefragt werden, so dass deutlich wird, wie eine Website zu verschiedenen Zeitpunkten ausgesehen hat.

Große Datenmengen müssen dafür gespeichert werden. Im Jahr 2005 schaffte das Internet Archive dazu ein erstes System mit einer Speicherkapazität von 1 Petabyte an. Das aber reicht schon lange nicht mehr, denn am 25. Oktober 2012 hat der Datenbestand die Marke von 10 Petabyte überschritten, das sind mehr als 10 Millionen GByte.

Nun will das Internet Archive den kompletten Datensatz eines Crawler-Laufs zu Forschungszecken bereitstellen. Das Archiv umfasst rund 80 TByte an WARC-Dateien in denen die Inhalte von rund 2,7 Milliarden URIs zusammengefasst sind. Der Crawlerlauf begann am 9. März 2011 und endete am 23. Dezember 2011. Ausgangspunkt waren die laut Alexa 1 Million am häufigsten besuchten Websites.

 

Quelle: Golem

Leave A Comment

You must be logged in to post a comment.