Резервное копирование служб факультета ВМК
Введение
Защита данных пользователей от потерь делается на нескольких уровнях, т.к. данные можно потерять (или данные станут надолго недоступны) при:
- выходе из строя жесткого диска
- выходе из строя RAID-контроллера (особенно если сломалось не сразу и возникла проблема write-hole)
- выходе из строя сервера (материнская плата, память, ...)
- подключили сервер к неправильному питанию и все сгорело (был случай на факультете, не в нашей службе)
- пользователь удалил один файл, а думал, что удаляет другой
- пользователь не заблокировал рабочую станцию и злоумышленник удалил ему письмо (например, ребенок)
- злоумышленник подобрал пароль пользователя и скомпрометировал его данные (удалил, подменил, ...)
От разных опасностей надо применять разные средства.
Локальное копирование
Делается через снимки файловой системы (snapshot).
Периодичность:
- три раза в час, хранится трое суток;
- раз в три часа, хранится две недели;
- раз в день, хранится месяц;
- раз в неделю, хранится 6 месяцев.
Спасает от проблем пользовательского уровня:
- Удалили по ошибке письмо/файл/...
- Восстановили базу данных не из той копии/удалили базу данных
- Злоумышленник подобрал пароль к почте/сайту/... и изменил/удалил данные
- и других подобных
Т.е. оборудование все в полном порядке, не аппаратный сбой.
Использование RAID на серверах
Спасает от выхода из строя одного жесткого диска на сервере и дает время на восстановление работоспособности сервиса.
Увеличивает количество экземпляров данных пользователя локально.
Копирование на удаленный сервер
Спасает от потери всего сервера (сгорела материнская плата, контроллер, пожар в серверной ...)
Производится с периодичностью самого частого бекапа, поэтому отдельный сервер хранит достаточно релевантные данные.
На сервере хранятся те же копии (снимки), что и на основной системе, что позволяет закрыть и такой сложный сценарий:
- администратор сайта сделал неправильное обновление (например, перед новогодними праздниками)
- во время новогодних каникул сервер потеряли (например, переносили и уронили на пол)
- несмотря на это все данные (состояние системы) вполне можно восстановить
Статистика
В процессе жизни сервисы Факультета пережили:
- «потерю» пользователем писем в мае 2021г:
- Данные были полностью восстановлены.
- Обратились в течение недели.
- «потерю» пользователем писем в сентябре 2019г:
- Данные были полностью восстановлены.
- Обратились на следующий день.
- «потерю» пользователем базы данных в сентябре 2018г (неудачные действия при обновлении drupal):
- Данные были полностью восстановлены.
- Восстановлено на утро перед потерей (данные не менялись, поэтому это состояние перед удалением).
- зависание (аппаратная поломка) сервера в августе 2018г:
- В течении часа был поднят резервный вариант с помощью резервной копии (отставание не больше 30 минут, данные за это время не менялись).
- Исходный сервер был запущен позднее.
- «потерю» пользователем писем в декабре 2017г. (пользователь оптимизировал ящик):
- Данные были полностью восстановлены.
- Обратились на третий день.
- выход из строя сервера в январские выходные 2017:
- потерь данных не было
- работоспособность 8ми виртуальных машин была восстановлена в течении часа удаленно.
- актуальность данных: расхождение бекапа и работающего сервера составила меньше 15 минут, после восстановления доступа к данным расхождение было устранено.
- «потерю» пользователем писем в ноябре 2016г. (подключились POP3-клиентом):
- Данные были полностью восстановлены.
- «потерю» обнаружили спустя более двух недель
- поломку диска на сервере резервного копирования в августе 2016г (отказ диска):
- Была произведена замена диска и восстановление RAID-избыточности
- Перерыв в работе сервера составил лишь 10 минут
- поломку сервера резервного копирования в июле 2016г (отказ трех дисков, два безвозвратно):
- Сервер был пересобран на меньший объем хранимых данных
- На время пересборки копия данных оставалась на самих серверах (т.е. сервера хранят историю изменений).
- Удаление профилей пользователей в июне 2016г:
- неверно было определено, что они не используются.
- Данные были полностью восстановлены.
- восстановление данных для еще одного виртуального сервера в августе 2015г:
- Данные были полностью восстановлены.
- новую "потерю" данных на предыдущем сайте в августе 2015г. (рекомендации выполнены не были, их взломали еще раз):
- Данные были полностью восстановлены.
- "потерю" данных одном из сайтов в июле 2015г. (взлом, обратились спустя неделю):
- Данные были полностью восстановлены.
- "потерю" пользователем писем в июле 2015г. (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- "потерю" пользователем писем в мае 2015г. (подключились POP3-клиентом):
- Данные были полностью восстановлены.
- Как позднее оказалось, "удаление" почты было и раньше, исчезнувшая в более ранний период почта тоже восстановлена.
- "потерю" пользователем писем в феврале 2015г. (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- выход из строя на бекап-сервере (август 2014г.) еще трех дисков:
- в том числе тот, который был снова введен в эксплуатацию
- ввиду нехватки дисков сервер был переделан на 6-дисковое хранилище (было 8-дисковое)
- восстановление виртуальной машины для одной из кафедр (17.07.2014 попросили восстановить на 03.07.2014).
- выход из строя на бекап-сервере (июнь 2014) трех жестких дисков:
- два безвозвратно
- один частично (данные удалось считать)
- данные не пропали (RAID6), частично вышедший из стоя диск прошел проверку и был заново введен в эксплуатацию.
- выход из строя сервера в январе 2014:
- потерь данных не было
- работоспособность 7ми виртуальных машин была восстановлена в течении часа.
- актуальность данных: расхождение бекапа и работающего сервера составила меньше 25 минут (сервер уникальный, его диски подключить некуда).
- "потерю" пользователем папки сайта в 2013 (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- "потерю" папки с письмами (2 разных пользователя) в 2013:
- Данные были полностью восстановлены (оба пользователя обратились почти сразу после своей ошибки).
- "потерю" еще одной из кафедр данных за 9 месяцев (ошибочный откат базы, 2013):
- Обратились спустя 11 дней
- Данные были полностью восстановлены (на утро проблемного дня).
- проблема с сайтом компьютерных курсов (март 2013), администратор обнаружил, что сайт ведет себя иначе:
- скорее всего либо ошибка администратора (или его действий по безопасности)
- Данные (файлы и база) были полностью восстановлены.
- "потерю" одной из кафедр почты из-за простого пароля (после этого все завели более сложные пароли, 2013):
- Обратились спустя 4 дня после потери данных
- Почта была полностью восстановлена (за пять минут до изменения)
- выход из строя 5 серверов в течении года (2011-2012):
- потерь данных не было
- простой в сервисах не превышал двух-трех часов на каждый случай