Смотреть сайты в прошлом: Как узнать историю сайта и восстановить его из веб-архива – Блог Netpeak Software

Содержание

как пользоваться, чем полезен [Инструкция]

Интернет в привычном для нас виде появился 36 лет назад — за это время он развивался семимильными шагами, а сайты тысячи раз меняли свой дизайн и контент. Web archive представляет собой своеобразную машину времени, которой может воспользоваться каждый пользователь.

Что такое Web Archive?

Это бесплатный сервис, где собраны истории многих интернет ресурсов — их архивные копии. Причем речь идет не о скриншотах, а о полноценных страницах с изображениями, рабочими ссылками и стилевым оформлением.

Получение информации о том или ином домене предполагает не только интересное времяпровождение с отслеживанием эволюции веб-проекта, но еще и возможность:

  • узнать тематику сайта — архив интернета демонстрирует содержимое, благодаря чему легко определить нишу проекта;
  • посмотреть, как выглядел сайт раньше — это находка для охотников за б/у доменами;
  • определить, регистрировался ли до этого анализируемый домен — полезный инструмент для тех, кому принципиальна «стерильность» домена или для того чтобы избежать санкций поисковиков;
  • восстановить свой сайт, если вы почему-то не сделали резервное копирование.
  • отыскать уникальный контент — трудоемкая задача, которая может подарить вам десятки бесплатных статей;
  • увидеть удаленный текст из закладок — шансы найти нужную страницу достаточно высоки.

История создания архива интернета

Wayback Machine является одним из двух главных проектов archive.org. Этот некоммерческий сервис был создан в 1996 году Брюстером Кейлом. Машина времени сайтов имеет четкую цель: сбор и хранение копий ресурсов вместе со всем контентом для возможности свободного просмотра несуществующих или неподдерживающихся страниц в будущем. С 1999-го робот стал фиксировать еще и аудио, видео, иллюстрации, программное обеспечение.

База современного архива собиралась в течение 20 лет, у нее не существует аналогов. Статистика впечатляет: на сегодняшний день в сервисе находится 279 миллиардов страниц, 11 миллионов книг и статей, 100 тысяч программ и миллион картинок.

А знаете ли вы? Веб-архив сайтов часто имеет проблемы на законодательном уровне из-за нарушения авторских прав. По требованию правообладателей библиотека удаляет материалы из публичного доступа.

Как пользоваться веб-архивом?

Сервис очень удобный в применении. Пошаговая инструкция такова:

  1. Зайдите на главную страницу платформы.
  2. Введите в поле название интересующего вас сайта и нажмите Enter (в нашем случае это https://livepage.ua/ru).
  3. Под указанным доменным именем демонстрируется основная информация: когда начинается история проекта, сколько слепков имеет сайт. В примере видно, что ресурс был впервые архивирован 30 сентября 2017 года, библиотека хранит его 43 архивные копии.
  4. Дальше мы обращаем внимание на календарь — голубым цветом в нем отмечены даты создания слепков.Каждый из них доступен для просмотра: нужно лишь выбрать год, месяц и день сохранения. Мы хотим посмотреть, как выглядел сайт раньше: допустим, 3 февраля текущего года. Наводим курсор на голубой кружок и жмем на время сохранения. Проще не бывает!
  5. При желании можно получить общие данные о web-проекте — надо нажать на кнопку Summary над хронологической таблицей и календарем или же ознакомиться с картой сайта (кнопка Site Map).

Алгоритм действий можно сократить. Для работы с сервисом напрямую, введите в строке своего браузера

http://web.archive.org/web/*/http://url.

В нашем случае это

http://web.archive.org/web/*/https://livepage.ua/ru.

Как восстановить сайт из веб-архива?

Плохая новость для тех, кто планирует просто найти архив сайта и скачать его привычным способом: страницы имеют вид статических html-файлов, к тому же их слишком много для того, чтобы заниматься этим вручную. Решить проблему можно при помощи специальных программ, к примеру, приложения на ruby. Необходимо лишь установить все на сервер и запустить восстановление страниц.

  • Установите «Руби».

apt-get install ruby

  • Добавьте саму программу, необходимую для работы.

gem install wayback_machine_downloader

  • Запустите выкачивание сайта из web archive.

wayback_machine_downloader http://www. site.ru -timestamp 20131209110704

Для удобства можно указать отметку снапшота — утилита определит число страниц и выведет выкачиваемые файлы на консоль. После скачивания и сохранения мы получим набор статических данных.

  • Разместите файлы в выбранной папке. Подойдет rsync:

rsync -avh./websites/www.site.com/ /var/www/site.com/

  • Создайте конфигурацию в nginx и дождитесь обновления dns. На этом все!

Как восстановить сайт без бэкапа?

Вернуть ресурс из небытия можно даже без резервного копирования.

  • Как уже говорилось раньше, можно восстановить сайт из веб-архива https://archive.org. Чтобы получить все страницы, введите в специальное поле имя ресурса с добавлением /* (https://livepage.ua/ru/*). Здесь же предусмотрена возможность фильтрации файлов по подстроке в URL. Для скачивания файлов подойдут многие программы, например, Teleport Pro.
  • Страницы интернет-проектов часто хранятся в кэше поисковых систем. По причине того что у каждого поисковика свои параметры, для лучшего эффекта промониторьте не только Google и Яндекс, но и Bing, Rambler:

http://www.google.ru/advanced_search
http://yandex.ru/search/advanced
http://www.bing.com/
http://nova.rambler.ru/srch/advanced

Войдите в режим расширенного поиска и укажите имя сайта. Получив результаты, кликайте по ссылкам «cached» или «копия».

  • Если вы отдаете полный RSS, тогда стоит проверить еще и ридеры, агрегаторы.

Учтите!

Нужный вам проект может и не входить в архив сайтов интернета. Если вы его не нашли в библиотеке — значит, правообладатель потребовал удаления копий или же ресурс закрыли в соответствии с законом о защите интеллектуальной собственности. Возможен и другой вариант: через файл robots.txt был банально внесен соответствующий запрет.

Как найти уникальный контент из веб-архива для вашего сайта?

Статьи, расположенные на заброшенных ресурсах, обычно не представляют никакой ценности для их бывших владельцев. А ведь в мир иной ежедневно уходят десятки сайтов. И среди кучи хлама, выброшенного на помойку истории, можно найти настоящие самородки — приличные тексты, которые достанутся вам бесплатно.

Поисковики хорошо относятся к любому актуальному и уникальному контенту — можно не бояться попасть в их немилость только из-за того, что статьи взяты из веб-архива чужого сайта.

Итак, последовательность действий следующая:

  1. Найдите подходящие вам блоги. Для этого следует зайти на Reg.ru и скачать оттуда список недавно освободившихся доменов.
  2. Посетите архив интернета с целью поиска сохраненных копий.
  3. Проверьте понравившиеся тексты через антиплагиат (контент может быть уже скопирован на другие сайты).
  4. Опубликуйте уникальные статьи на своем ресурсе.

При разумном подходе такой способ пополнения сайта контентом можно поставить на поток. Поиски материалов на мертвых блогах оправданы экономией времени на написание текстов и денег, которые бы вам пришлось заплатить авторам.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива?

Если вы дорожите контентом и не хотите видеть свою онлайн-площадку в электронной библиотеке, пропишите запретную директиву в файле robots.txt:

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

После изменения в настройках веб-сканер перестанет создавать архивные копии вашего сайта, к тому же удалит уже сделанные слепки. Однако учтите, что ваш запрет действует лишь до тех пор, пока доступен robots.txt — когда закончится срок регистрации доменного имени, машина времени сайтов станет демонстрировать статьи всем желающим.

Важно! Если вы, наоборот, желаете активно пользоваться веб-архивом, введите соответствующий запрос на главной странице сервиса. Просто укажите адрес проекта в разделе Save Page Now, после чего нажмите кнопку Save Page. Повторяйте процедуру после внесения любых правок.

Аналоги Webarchive

Альтернативой рассматриваемой в обзоре электронной библиотеке может стать:

  • http://web-arhive. ru/.

Принцип работы тот же, как и у archive.org.

как раньше выглядели 12 известных сайтов

Назад в прошлое: как раньше выглядели 12 известных сайтов

За последние два десятилетия интернет значительно продвинулся вперед. В то время Apple была компьютерной компанией, которая боролась с трудностями, AOL — процветающим провайдером интернет-услуг, и Microsoft собирались выпустить Windows 98. Благодаря магии Wayback Machine мы можем посмотреть, как выглядели их сайты в то время.

В 2005 году YouTube был основан тремя американскими ребятами, которые работали на PayPal. Сервис сделал процесс загрузки и просмотра видео намного проще, чем когда-либо прежде. Первое видео называлось «Me at the zoo» и было загружено соучредителем Jawed Karim.

Google приобрел сайт в 2006 году. Сейчас на YouTube каждую минуту загружается 300 часов видео.

eBay не всегда так называли. Когда он был запущен в 1995 году, его называли AuctionWeb, и одна из первых проданных вещей была сломанная лазерная указка за $14. 83. В 1996 году на сайте было проведено 250 000 аукционов. Год спустя эта цифра выросла до двух миллионов, и на долю Beanie Babies пришлось 10% от общего числа таких объявлений.

eBay продолжает оставаться популярным местом для покупок, хотя сейчас он продает намного больше, чем просто коллекционные игрушки.

Apple в настоящее время одна из самых дорогостоящих компаний в мире. Но в 90-е годы они испытывали трудности и сайт Apple 1997 года, кажется, о совершенно другой компании, чем Apple 2018. Но и тогда компания продвигала мобильные устройства — в данном случае eMate 300, в которых использовалась платформа Apple Newton. (Она провалилась.)

Google не был первой поисковой системой, хотя и сделал поиск быстрее, благодаря формуле ранжирования страниц, разработанной Ларри Пейджем и Сергеем Брином. Знаковый, минималистичный дизайн всегда присутствовал на их сайте, так же как и красочный логотип.

Малоизвестный факт: Google начинал с такого простого дизайна только потому, что основатели компании были мало знакомы с HTML.

1997 год был периодом до появления Google, поэтому люди использовали другие поисковые системы, такие как Yahoo.

В то время Microsoft работала над Windows 98, и их слоган “Where do you want to go today?” был широко представлен на их сайте. Как видите, они всегда предлагали самые разнообразные продукты и услуги. Главная новость — «Internet Explorer 4.0 Debuts to Critics»-«Аплодисменты критиков» — забавна в ретроспективе, так как в последующие годы браузер был быстро обогнан конкурентами.

Компания Amazon начала продавать книги в 1995 году и, как и все хорошие интернет-компании, была основана Джеффом Безосом в гараже. Он выбрал книги из-за мирового спроса на литературу, низкой стоимости и огромного разнообразия. Безос продавал на $20 000 в неделю в течение двух месяцев, так что можно сказать, что это был правильный выбор, тем более, что Amazon остается первым номером среди всех онлайн-магазинах.

Веб-сайт AOL — это настоящий взрыв из прошлого. На первой странице размещается реклама бета-версии AOL Instant Messenger, которая в конечном итоге стала очень популярной.

Если бы вы жили где-то в 90-х, я уверен, вы помните GeoCities. Вместо того, чтобы создавать блоги, люди создавали свои личные сайты, и обычно они выглядели ужасно. GeoCities была официально закрыта в 2009 году, но она исчезла и умерла много лет назад…

Если вы не использовали Yahoo, есть большая вероятность, что вы использовали AltaVista. В России этот сайт был ещё и известен, как самый популярный поиск кряков для программ.

Один из первых сайтов, который я посетил, когда первый раз вышел в интернете,  — российский почтовик mail.ru. А вот так он выглядел в 2000 году.


Спасибо, что читаете! На данный момент большинство моих заметок, статей и подборок выходит в telegram канале «Левашов». Обязательно подписывайтесь, чтобы не пропустить новости мира ИТ, полезные инструкции и нужные сервисы.


Респект за пост! Спасибо за работу!

Хотите больше постов в блоге? Подборок софта и сервисов, а также обзоры на гаджеты? Сейчас, чтобы писать регулярно и радовать вас большими обзорами, мне требуется помощь. Чтобы поддерживать сайт на регулярной основе, вы можете оформить подписку на российском сервисе Boosty. Или воспользоваться ЮMoney (бывшие Яндекс Деньги) для разовой поддержки:


Заранее спасибо! Все собранные средства будут пущены на развитие сайта. Поддержка проекта является подарком владельцу сайта.

Путешествие во времени в Интернете: просмотр любого веб-сайта из (почти) любого года посмотрите прошлые «снимки» почти любого веб-сайта. Archive.org — это некоммерческая организация 501(c)(3), созданная для создания обширной интернет-библиотеки. С 1996 года организация архивирует цифровой контент, чтобы сохранить наследие и историю Интернета и Всемирной паутины.

Компьютер, планшет или мобильное устройство. Как партнер Amazon, мы можем бесплатно получать небольшую партнерскую комиссию, когда вы покупаете по нашим ссылкам.

h/веб-дизайн • 17 руководств

h/интернет • 81 руководство

h/www • 5 руководств

С помощью браузера перейдите на Archive. org.

Я решил проверить скромные корни Amazon, так как я читал биографию Джеффа Безоса Один клик .

Метасканер Archive.org чаще посещает популярные сайты. Каждый синий кружок указывает на то, что моментальный снимок существует. В моем случае я искал Amazon, седьмой по популярности сайт в Интернете; это объясняет синее пятно, которое вы видите ниже.

На гистограммах «годовых» снимков можно заметить, что общее количество снимков с годами увеличилось — это связано со снижением стоимости места на жестком диске, в результате чего стало возможным больше обходов. В конце концов, каждый снимок — это не просто изображение — это доступная для изучения версия сайта.

Здесь вы можете выбрать синий кружок для просмотра соответствующего снимка или выбрать другой год для просмотра. Давайте углубимся. Выберите более старый год.