Системы Maxtronic: защита данных и диагностика жестких дисковКомпьютерное оборудование, использующее жесткие диски для хранения данных существует уже довольно долго и все это время пользователи беспокоятся о сохранности своих ценных, а порой и бесценных данных. И беспокойство это вполне оправдано - жесткие диски хранят огромное количество данных и одновременно являются одними из самых ненадежных компонентов компьютерных систем, ведь сама конструкция жесткого диска предполагает возможность выхода его из строя. Такая поломка влечет за собой потерю ценных для пользователя данных. Несмотря на бурные дискуссии по поводу того, диски какой фирмы более надежны, предъявлять претензии к производителю совершенно бессмысленно - ломаются жесткие диски от любого производителя - у кого-то в данное время чуть меньше, у кого-то чуть больше, но в среднем ломаются одинаково у всех. К этому нужно быть готовым в любой момент, а желательно попытаться предвидеть потенциально плохой диск с помощью соответствующих программ и/или оборудования. Компания Maxtronic International, известный производитель систем хранения данных, применяет в своих системах несколько способов диагностики и защиты данных, о которых и пойдет речь далее. ДиагностикаDSTDisk Self Test (DST - Самотестирование диска). Способ, позволяющий использовать встроенные производителем жесткого диска возможности диагностики. Фактически процедуру DST можно сделать на любом компьютере, запустив соответствующую фирменную утилиту от производителя, но для этого надо во-первых, вынуть диск из системы хранения данных и, во-вторых, научиться пользоваться фирменными утилитами, которые у каждого производителя свои. В системах хранения данных от Maxtronic (далее просто системы хранения данных) предусмотрена возможность запуска DST для дисков любого производителя, установленных в системе хранения данных. DST в первую очередь предназначен для получения информации о вероятности выхода из строя жесткого диска, поэтому его задача - найти "тонкое" место. DST выполняет тест на запись, проверку сервопривода управления перемещением головок диска и сканирование чтением всей поверхности диска. DST может быть использован в двух режимах:
Эти два режима, а так же режим Stop DST - остановка теста - будут предложены пользователю при запуске программы. Если же во время работы DST компьютер обратится к данным в системе хранения, то тест будет прерван с соответствующим сообщением: Если же вы сами остановите тест, то сообщение будет несколько иным: Разумнее всего сначала запустить короткий DST тест и только в случае обнаружения каких-либо проблем выполнить расширенный тест. Если в результате расширенного теста ошибка подтвердится, диск с ошибкой следует обязательно заменить на исправный. Но, следует учесть, что встроенные в систему хранения данных способы тестирования в DST не совпадают полностью с методами, используемыми производителями жестких дисков для аналогичной проверки. Из этого следует вполне логичный вывод - забракованный DST диск может НЕ БЫТЬ забракован соответствующей специальной фирменной утилитой от производителя. Тем не менее рекомендации по замене остаются в силе - лучше не рисковать. DSDisk Scrubbing (DS - "Чистка" диска) - эта процедура дает возможность обнаружить плохие (bad) сектора жесткого диска и переназначить на место плохих секторов резервные хорошие. Она применяется, в отличие от DST, только к уже созданным RAID массивам, поскольку позволяет не только замещать плохие сектора, но и восстанавливать целостность RAID массива с обнаруженным (ми) плохим (ми) сектором (секторами) корректировкой контрольной суммы RAID. В отличие от DST теста, DS может выполняться в фоновом режиме, без ограничения доступа к данным в системе хранения со стороны компьютера. Центральный процессор системы хранения данных сам распределяет свои силы между обслуживанием запросов от компьютера, к которому подключена система хранения данных и выполнением DS. Понятно, что наивысший приоритет имеют запросы от компьютера. Но как только в этих запросах появляется "окно", выполнение DS продолжается. Запуск DS в профилактических целях весьма желателен, поскольку хоть и крайне редко, но возможна ситуация повреждения нескольких блоков в одной строке данных (stripe) RAID, что приведет к потере данных. DS позволяет также выявить потенциально "умирающий" жесткий диск и заменить его, не дожидаясь реальной "смерти". Запускать DS можно двумя способами:
Рекомендуется настраивать запуск DS именно по расписанию, не реже раза в неделю, выбрав наименее занятое работой с данными время. Прежде чем ввести расписание запуска DS, следует обязательно установить часы реального времени (RTC) в системе хранения данных. Для установки RTC следует зайти в System Params, выбрать Event Log, затем RTC. Выберите Set RTC и введите дату и время в формате MM/DD/YY W HH:MM, где MM - номер текущего месяца (для января, например - 01), DD - текущий день, YY - две последние цифры текущего года, W - номер из одной цифры текущего дня недели (1 - понедельник, 7 - воскресенье), HH - час, MM - минуты. Обращаем ваше внимание на то, что везде, где указаны две буквы, вводимое число должно состоять из 2-х цифр, т.е. если число меньше 10, то следует обязательно добавлять 0. После установки часов реального времени можно приступить к вводу расписания выполнения DS. Для этого зайдите в Utility, затем выберите Disk Scrubbing и в завершении выберите Schedule Scrubbing (Расписание "чистки"). Далее вы можете выбрать All arrays (Все массивы) или конкретный массив по его номеру. Мы рекомендуем выбрать All arrays (Все массивы), поскольку вряд ли сохранность данных на каком-либо из массивов вас не волнует. Затем следует указать значение Frequency (Частота) - интервала в неделях между запусками DS. Если ввести здесь 0, то DS выполнится только один раз. Мы рекомендуем ввести в этом параметре 1, т.е. проверять диски еженедельно. Далее осталось ввести в параметре Day (День) день недели, а в параметре Time (Время) время запуска DS и в параметре ON/OFF (Включить/Выключить) выбрать ON - на этом собственно процесс ввода расписания выполнения DS закончен. Для уверенности в том, что данные никогда не будут потеряны, настоятельно рекомендуем также разрешить корректировку контрольной суммы (Parity, хотя это не простая четность) RAID в тех случаях, когда система будет восстанавливать поврежденные сектора. Для этого выберите Utility, затем Overwriting Parity (Перезаписывать четность) и в нем выберите Yes (Да). Примечания:
По завершении DS система хранения запишет в свой Event Log сообщение такого вида: Сначала, в части 1 сообщения, можно видеть обнаруженные и восстановленные сектора по каждому из жестких дисков. Текст Total XX+(YY) Bad Blocks не появляется, если ни один сектор не восстанавливался, как в случае с диском 16 нашего примера. В части 2 сообщения вы получаете информацию о том, восстанавливалась ли контрольная сумма RAID и сколько раз. Конечно, не стоит доводить ситуацию до абсурда и надеяться на DS как на панацею от неисправных дисков. При неоднократном попадании жесткого диска в список с обнаруженными плохими секторами его следует просто заменить. Стоимость жесткого диска пренебрежимо мала по сравнению со стоимостью данных, на нем хранящихся. Для минимальной потери производительности при замене жесткого диска в RAID массиве предназначена еще одна возможность в системах хранения данных - Disk Cloning and S.M.A.R.T., о которой пойдет речь ниже. DCDisk Cloning and S.M.A.R.T. (Клонирование диска и диагностика - сокращенно DC) - еще одна возможность для пользователя следить за диском, вероятность выхода из строя которого высока, и с минимальными потерями в производительности системы хранения заменить такой диск. DC есть смысл применять в том случае, если в системе таким средством, как DS, обнаружен жесткий диск с постоянно добавляющимися дефектами, шансы которого на выход из строя близки к 100%. Разумеется, проще всего его сразу заменить, но часто бывают ситуации, когда свободного диска под руками нет и есть временная необходимость в использовании даже некачественного диска, но с гарантией от потери данных в системе. Клонирование "умирающего" диска позволяет поддерживать в системе хранения его точную, "клонированную" копию и после реальной "смерти" диска немедленно перейти к работе с его точной копией. У вас может возникнуть резонный вопрос - а какой смысл в такой операции, если в системе хранения все равно есть диск в "горячем" резерве и система обязательно добавит его к массиву в случае выхода из строя любого жесткого диска? Вопрос действительно разумный и мы попробуем понять отличия между штатной работой по замене неисправного диска на диск из резерва и заменой на ранее клонированный диск. Штатное подключение диска из "горячего" резерва в RAID вместо вышедшего из строя. Контроллер RAID начинает перестройку (rebuild) массива, в течение которой производительность системы хранения заметно уменьшается, эта процедура для диска в 250 Гигабайт, например, занимает приблизительно 3 часа и самое неприятное, что в случае выхода из строя в этот момент еще одного жесткого диска, данные могут быть потеряны. Вероятность такого события довольно мала, близка к 0, но, тем не менее, она есть. В системе постоянно поддерживается копия (клон) "умирающего" диска, то замена этого диска после его "смерти" на копию произойдет практически мгновенно и контроллер RAID не будет делать перестройку массива. Из сказанного выше следует один важный вывод - нет абсолютно никакого смысла применять DC в том случае, если в RAID все хорошо и нет ни одного диска с ошибками после проверки процедурой Disk Scrubbing. Перейдем теперь к описанию правил запуска DC. В отличие от DS, клонирование диска может быть запущено только вручную (точнее, DC нельзя запускать по расписанию) по понятным причинам. Но, для того, чтобы избавиться от необходимости постоянного ручного слежения за подозрительным диском, в системе хранения предусмотрена процедура S.M.A.R.T. контроля, автоматизирующая запуск клонирования диска, количество плохих секторов на котором превысило заданный вами предел. Ручной запуск Расскажем сначала о ручном запуске DC, без участия S.M.A.R.T. Его есть смысл использовать в том случае, если судьба "умирающего" диска вами уже предрешена и вы хотите сделать его копию для максимально возможной безболезненной замены этого диска на новый. Выберите Utility, далее Disk Clone (Клонирование диска) и Start Disk Clone (Старт клонирования диска). Теперь выберите Source Disk (Диск-источник) по его номеру и Target Disk (Диск, на который следует копировать источник). Разумеется, выбор Target Disk будет вам предложен в том и только в том случае, если в системе хранения есть хотя бы один диск в "горячем" резерве. Далее вы можете выбрать между Start Permanent Clone (Начать непрерывное клонирование) и Start Swap After Clone (Заменить диск после клонирования). Start Permanent Clone есть смысл применять в том случае, если вы хотите максимально продлить использование "умирающего" диска или тогда, когда возможная "смерть" диска неочевидна. Диск будет непрерывно копироваться и в любой момент копия будет готова к использованию. Для разрешения этого способа просто выберите Yes (Да). Примечание: если исходный диск "умрет" в момент копирования, RAID контроллер начнет перестройку массива с того места, которое копировалось в момент "смерти" диска. Контроллер НЕ БУДЕТ перестраивать RAID с нуля. Start Swap After Clone следует выбирать в том случае, если вы решили подозрительный жесткий диск заменить и вы хотите сделать такую замену с минимальными потерями в производительности системы хранения. Для разрешения этого способа просто выберите Yes (Да). По завершении клонирования диск из RAID массива будет немедленно заменен на только что созданную копию. Примечание: клонируемый диск будет помечен на LCD дисплее системы хранения буквой "C". Автоматический запуск Для автоматического запуска клонирования диска выберите Utility, далее SMART, затем Disk Check Time (Интервал проверки диска). Значение интервала может быть 1, 15, 30 и 60 минут. По умолчанию выбрано значение 60 минут, которое и рекомендуется оставить. Теперь выберите Utility, SMART и затем раздел SMART Mode (Режим S.M.A.R.T.). В этом разделе можно выбрать:
Нам осталось только определить критерий, по которому клонирование будет запущено. Для этого выберите Utility, SMART и затем раздел Bad Sectors (Плохие сектора). В этом разделе можно выбрать:
Итак, указав интервал проверки диска, выбрав Enable (Start Swap After Clone) и указав пороговое значение для автоматического клонирования и замены, вы в результате получите автоматическую замену "умирающего" жесткого диска на исправный по достижении плохим диском определенного вами порога количества плохих секторов. Примечания:
Итак, после ознакомления со всеми возможными способами предотвращения потери данных из-за возможного выхода из строя жесткого диска (или дисков), можно рекомендовать следующие правила работы с системой хранения данных.
|