fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Кулінарія

3 рецепти ванільної помадки на згущеному молоці з ваніллю

Без кейворду

Інтернет-архів знаходить і фіксує веб-сторінки за допомогою багатьох різних пошукових систем. У будь-який момент часу виконується кілька різних сканувань, деякі протягом місяців, а деякі щодня або довше. Переглянути веб-архів можна за допомогою Wayback Machine.

Колекція: Широкомасштабне сканування, розпочате в березні 2011 року

Широкомасштабний веб-сканування з початковим списком і конфігурацією сканера з березня 2011 року. Для цього використовується нове програмне забезпечення HQ для розподіленого сканування Кенджі Нагахаші (Kenji Nagahashi).

Що в наборі даних:

Дата початку сканування: 09 березня 2011 р. Дата закінчення сканування: 23 грудня 2011 р. Кількість захоплень: 2 713 676 341 Кількість унікальних URL-адрес: 2 273 840 159 Кількість хостів: 29,032,069

Початковим списком для цього сканування був список 1 мільйона найкращих веб-сайтів Alexa, отриманий незадовго до дати початку сканування. Ми використовували програмне забезпечення Heritrix (3.1.1-SNAPSHOT) і дотримувалися директив robots.txt. Обсяг сканування не був обмежений, за винятком кількох сайтів, виключених вручну.

Однак для нас це був дещо експериментальний пошук, оскільки ми використовували новостворене програмне забезпечення для передачі URL-адрес пошуковим роботам, і ми знаємо, що з ним були певні операційні проблеми. Наприклад, у багатьох випадках ми могли не просканувати всі вбудовані та пов’язані об’єкти на сторінці, оскільки URL-адреси цих ресурсів були додані в черги, які швидко зростали, перевищуючи запланований розмір сканування (і тому ми ніколи до них не потрапляли). Ми також включили повторне сканування деяких урядових сайтів Аргентини, тому результати по країні будуть дещо викривлені.

Ми внесли багато змін у те, як ми робимо ці широкі сканування після цього конкретного прикладу, але ми хотіли зробити дані доступними “з бородавками і без”, щоб люди могли поекспериментувати з ними. Ми також провели додатковий аналіз вмісту.

Якщо ви хочете отримати доступ до цього набору даних, будь ласка, зв’яжіться з нами за адресою info at archive dot org і повідомте нам, хто ви і що ви сподіваєтеся з ними зробити. Можливо, ми не зможемо відповісти “так” на всі запити, оскільки ми тільки з’ясовуємо, чи є це гарною ідеєю, але кожна заявка буде розглянута.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *