Интересно Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1

Takeshi

Перо Дьявола
Команда форума
PR-group
CPA & Трафик
Регистрация
23 Янв 2019
Сообщения
1,351
Баллы
0
Общие продажи
0$
Общие покупки
0$
Обратите внимание, пользователь заблокирован на форуме. Не рекомендуется проводить сделки.
В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.

Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет. По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.

Какие существуют веб-архивы Интернета
Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в комментариях):

web.archive.org
Этот сервис веб архива ещё известен как

Please Login or Register to view hidden text.

. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.

Для сохранения страницы в архив перейдите по адресу

Please Login or Register to view hidden text.

введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».


Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу

Please Login or Register to view hidden text.

, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:


В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.


Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.

Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.

Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.


При клике на выбранное время, будет открыта ссылка, например,

Please Login or Register to view hidden text.

и вам будет показано, как выглядела страница в то время:


Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:


Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида

Please Login or Register to view hidden text.

, например,

Please Login or Register to view hidden text.



Кроме календаря доступна следующие страницы:

  • Collections — коллекции. Доступны как дополнительные функции для зарегистрированных пользователей и по подписке
  • Changes
  • Summary
  • Site Map
Changes
"Changes" — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.

Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:


И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.

Summary
В этой вкладке статистика о количестве изменений MIME-типов.


Site Map
Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.

Поиск по Интернет архиву
Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:


Показ страницы на определённую дату
Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида:

Please Login or Register to view hidden text.


Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.

Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.

archive.md
Адреса данного Архива Интернета:

На главной странице говорящие за себя поля:

  • Архивировать страницу, которая сейчас онлайн
  • Искать сохранённые страницы

Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:

  • microsoft.com покажет снимки с хоста microsoft.com
  • *.microsoft.com покажет снимки с хоста microsoft.com и всех его субдоменов (например,

    Please Login or Register to view hidden text.

    )

  • Please Login or Register to view hidden text.

    покажет архив данного url (поиск чувствителен к регистру)

  • Please Login or Register to view hidden text.

    поиск архивных url начинающихся с

    Please Login or Register to view hidden text.

Данный сервис сохраняет следующие части страницы:

  • Текстовое содержимое веб страницы
  • Изображения
  • Содержимое фреймов
  • Контент и изображения загруженные или сгенерированные с помощью Javascript на сайтах Web 2.0
  • Скриншоты размером 1024×768 пикселей.
Не сохраняются следующие части веб-страниц:

  • Flash и загружаемый им контент
  • Видео и звуки
  • PDF
  • RSS и другие XML-страницы сохраняются ненадёжно. Большинство из них не сохраняются, или сохраняются как пустые страницы.
Архивируемая страница и все изображения должны быть менее 50 Мегабайт.

Для каждой архивированной страницы создаётся ссылка вида

Please Login or Register to view hidden text.

, где XXXXX это уникальный идентификатор страницы. Также к любой сохранённой странице можно получить доступ следующим образом:


  • Please Login or Register to view hidden text.

    - самый новый снимок в 2013 году.

  • Please Login or Register to view hidden text.

    - самый новый снимок в январе 2013.

  • Please Login or Register to view hidden text.

    - самый новый снимок в течение дня 1 января 2013.
Дату можно продолжить далее, указав часы, минуты и секунды:

Для улучшения читаемости, год, месяц, день, часы, минуты и секунды могут быть разделены точками, тире или двоеточиями:

Также возможно обратиться ко всем снимкам указанного URL:

Все сохранённые страницы домена:

Все сохранённые страницы всех субдоменов

Чтобы обратиться к самой последней версии страницы в архиве или к самой старой, поддерживаются адреса вида:

Чтобы обратиться к определённой части длинной страницы имеется две опции:

  • добавить хэштег (#) с позицией прокрутки в качество которого число между 0 (вершина страницы) и 100 (низ страницы). Например,

    Please Login or Register to view hidden text.

  • выбрать текст на страницы и получить URL с хэштегом, указывающим на этот раздел. Например,

    Please Login or Register to view hidden text.

В доменах поддерживаются национальные символы:

Обратите внимание, что при создании архивной копии страницы архивируемому сайту отправляется IP адрес человека, создающего снимок страницы. Это делается через заголовок X-Forwarded-For для правильного определения вашего региона и показа соответствующего содержимого.

web-arhive.ru

Please Login or Register to view hidden text.

— это бесплатный сервис по поиску архивных копий сайтов. С помощью данного сервиса вы можете проверить внешний вид и содержимое страницы в сети интернет на определённую дату.

На момент написания, этот сервис, вроде бы, нормально не работает («Database Exception (#2002)»). Если у вас есть по нему какие-то новости, то пишите их в комментариях.

Поиск сразу по всем Веб-архивам
Может так случиться, что интересующая страница или файл отсутствует в веб архиве. В этом случае можно попытаться найти интересующую сохранённую страницу в другом Архиве Интернета. Специально для этого я сделал довольно простой сервис, который для введённого адреса даёт ссылки на снимки страницы в рассмотренных трёх архивах.


Данная статья оказалась слишком большой, поэтому мне пришлось разбить ее на две части.