Чем восстанавливать сайты из Веб архива

Собрал сервисы по восстановлению контента дроп доменов. Все преимущественно платные, некоторые имеют лимит, до которого платить не надо.

Кроме платных сервисов приведу список инструментов, с помощью которых вы можете восстановить данные бесплатно.

mydrop.io

(реф. ссылка)

Удобный сервис, кроме фнкционала восстановления контента сайта имеет фунционал поиска доменов по различным параметрам. Пользуюсь им больше года.

Из преимуществ:

  • широкий набор фильтров для поиска домена
  • возможность подписки на фильтр
  • информативная таблица доменов с полезными seo метрикам( TF, CF, DA, PA, LinkPad, SimilarWeb, LiveInternet, Alexa)
  • показывают кол-во файлов, которые можно восстановить и размер в МБ
  • показывают, есть ли ставки на домен через сервис expired.ru
  • Есть своя Cms
  • адекватные цены
  • скидки при пополнении счета от 3000 руб.
  • интерфейс на русском

Из минусов:

  • нет пробного периода либо бесплатного восстановления, если восстонавливаемый сайт «небольшой»
  • есть функционал предварительного просмотра, но он очень сыроват и на счета должна быть сумма не меньше чем стоимость восстановления

Archivarix

(реф.ссылка)

Мой фаворит, как сервис восстановления контента. Последнее время восстанавливаю с помощью этого сервиса.

Из преимуществ:

  • Гибкая настройка восстановления
  • Восстановление сайта состоящего из 200 файлов будет бесплатным
  • Своя CMS
  • Сервис доступен на 8 языках в том числе русский
  • Парсинг структурированных данных. Потом эти данные можно загрузить в wordpress. К сожалению пока сыровато.

Из минусов:

  • нельзя пополнить банковской картой

waybackmachinedownloader.com

waybackmachinedownloader.com

Сервисом не пользовался. Сервис имеет крутые возможности, которые я собираюсь потестить в ближайшее время.

Плюсы:

  • Приемлимая цена для больших сайтов. До 20000 файлов будет стоить 19$. Кроме этого они сгенерируют сайтмап.
  • За 60$ долларова интегрируют файлы в вордпресс
  • Есть подписка за 79$: в течении месяца можете скачивать восстанавливать сайты бесплатно, скидка на перевод в вордпресс,
  • Поддерживают 8 языков, но русского нет
  • Кроме восстановления сайтов предлагают услуги по подбору доменов с истекающим сроком и по восстановлению уникальных статей.

Минусы:

  • Есть демо доступ. Будут доступны 4 страницы, но нужно разворачивать это локально, что долго муторно и неудобно, хотелось бы посмотреть все в онлайне.
  • Не выгодно восстанавливать маленькие сайты
  • Нет русского языка

r-tools.org

Первое, что бросается в глаза дизайн сайта стороват. Ребята, пора обновлять!

Плюсы:

  • Подходит для парсинга сайтов у которых мало html страниц и много ресурсов другого типа. Потомучто они рассчитывают цену по html страницам
  • возможность отказаться от сайта, если качество не устроило. После того как система скачала сайт, вы можете сделать предпросмотр и отказаться если качество не устроило, но только если еще не заказали генерацию архива. (Не проверял эту функцию лично, и не могу сказать на сколько хорошо реализован предпросмотр, но в теории это плюс)
  • Внедрена быстрая интеграция сайта с биржей SAPE
  • Интерфейс на русском языке

Минусы:

  • Есть демо-доступ — это плюс, но я попробовал сделать 4 задания и не получил никакого результата.
  • Высокие цены. Парсинг 25000 стр. обойдется в 2475 руб. , а например на Архивариксе 17$. Нужно учесть, что r-tools считает html страницы, архиварикс файлы. Но даже если из всех файлов за 17$ только половина html страницы, все равно у r-tools выходит дороже. (нужно оговориться, что считал при $=70руб. И возможна ситуация, когда r-tools будет выгоден написал про это в плюсах)

waybackdownloader.com

waybackdownloader.com

Сервисом не пользовался. После изучения сайта выделил следующее:

Минусы:

  • Недоверие. Сайт из нескольких страниц и не имеет личного кабинета. Но неготивных отзывов о сервисе не нашел.

Плюсы:

  • Приятные цены при большом объеме. Они берут деньги не за файлы а за сайты целиком. Один стоит 15$, от 5 сайтов каждый будет за 7.5$
  • За отдельную плату в 30$ предлагают услугу — интегрировать скаченные файлы в wordpress (записи, категории, дизайн)

Какие еще сервисы по восстановлению контента из вебархива существуют?

archivescraper.net — собираюсь рассмотреть его поближе позже

Бесплатные способы восстановления

Ручной

Собственно основной ресурс, который используют все сервисы для восстановления сайта это https://archive.org/web/

Перейдите по ссылке, в поисковую строку введите интересующее доменное имя. Ниже появится линия лет, черной полоской обозначен момент, когда сервис сделал снимок сайта.

Ниже отображается календарь за выбранный год, там вы можете увидеть конкретный месяц и день, когда был произведен снимок.

Кликайте по снимку, откроется окно со страницей сайта за тот день. Открываете консоль разработчика и копируете html и все ресурсы необходимые странице — картинки, css, js и др. Неблагодарное дело.

Аналоги archive.org

https://archive.org/web/ не единственый проект, который делает снимки сайтов и хранит их. Существуют и другие например
Archive.is
http://timetravel.mementoweb.org/ уникальный проект, своего рода гугл по сайтам-аналогам archive.org

Веб кэш

Если нужно восстановить данные сайта, которые были потеряны недавно, может подойти кэш поисковой системы Гугл. Можно попробовать тут https://thisis-blog.ru/posmotret-sajt-v-keshe/

Библиотеки

Можно развернуть и свою поделку под свои нужды, если есть возможность. На гитхабе ищется по ключу wayback-machine

Что там можно найти, примеры:

https://pypi.org/project/wayback-scraper/
https://github.com/sangaline/wayback-machine-scraper
https://github.com/hartator/wayback-machine-downloader

Делитесь своим опытом использования данных сервисов. Если нашли ошибку, либо есть что добавить, тоже пишите.

дроп домен

Рекомендуем к прочтению



4 комментария

  • seoonly.ru:

    потестим, спасибо

  • Зонк:

    Если сайт огромный (более 500 тыс страниц), где дешевле всего будет это сделать? В r-tools оооочень дорого получается. В архивариксе тоже — под 300 долларов(

    • php программист:

      Не сталкивался с таким большим объемом. Стоит присмотреться к waybackdownloader.com
      Но о качестве их работы не знаю.

  • КирЯр:

    Архиварикс конечно крутой и они постоянно обновляют свой сервис, но пока по итогу (делал небольшой тест, сравнение) пришел к выводу, что мой самопис на питоне пока справляется с востановлением сайта из вебархива не хуже

Оставить комментарий

Этот сайт защищен reCAPTCHA и применяются Политика конфиденциальности и Условия обслуживания применять.

Срок проверки reCAPTCHA истек. Перезагрузите страницу.