80 терабайт архивных данных веб-сканирования доступны для исследования

mostakimvip04 · Post by **mostakimvip04** » Thu Jul 10, 2025 3:32 am

петабоксInternet Archive сканирует и сохраняет веб-страницы, делая их доступными для просмотра через Wayback Machine, поскольку мы верим в важность архивирования цифровых артефактов для будущих поколений. В процессе, конечно же, мы накапливаем большой объём данных.

Мы заинтересованы в том, чтобы изучить, как другие смогут взаимодействовать с этим контентом или получать из него информацию, если мы сделаем его доступным в больших объемах. Для Магазин этого мы хотели бы провести эксперимент, предоставив доступ к одному из наших сканирований за 2011 год, содержащему около 80 терабайт WARC- файлов, содержащих данные примерно 2,7 млрд URI. Эти файлы содержат текстовый контент и любые медиафайлы, которые нам удалось захватить, включая изображения, Flash-контент, видео и т. д.

Что находится в наборе данных:

Исходным списком для этого сканирования был список из 1 миллиона самых популярных веб-сайтов Alexa , полученный ближе к дате начала сканирования. Мы использовали сканер Heritrix (3.1.1-SNAPSHOT) и соблюдали директивы robots.txt. Область сканирования не была ограничена, за исключением нескольких вручную исключенных сайтов. Однако это сканирование было для нас своего рода экспериментальным, поскольку мы использовали новое программное обеспечение для передачи URL-адресов сканерам, и мы знаем, что в нем были некоторые эксплуатационные проблемы. Например, во многих случаях мы могли не сканировать все встроенные и связанные объекты на странице, поскольку URL-адреса этих ресурсов добавлялись в очереди, которые быстро превышали предполагаемый размер сканирования (и, следовательно, мы так и не добрались до них). Мы также включили повторные сканирования некоторых правительственных сайтов Аргентины, поэтому анализ результатов по странам будет несколько искаженным. С момента этого конкретного примера мы внесли много изменений в способ проведения этих широких сканирований, но мы хотели сделать данные доступными «со всеми причудами» для экспериментов. Мы также провели дополнительный анализ содержания .