Cache module status degraded hp proliant что это

whoa there, pardner!

Your request has been blocked due to a network policy.

Try logging in or creating an account here to get back to browsing.

If you’re running a script or application, please register or sign in with your developer credentials here. Additionally make sure your User-Agent is not empty and is something unique and descriptive and try again. if you’re supplying an alternate User-Agent string, try changing back to default as that can sometimes result in a block.

You can read Reddit’s Terms of Service here.

if you think that we’ve incorrectly blocked you or you would like to discuss easier ways to get the data you want, please file a ticket here.

when contacting us, please include your ip address which is: 178.132.111.61 and reddit account

Решение проблемы Flash/SD-CARD Degraded на HP Proliant серверах.

Решение проблемы “iLo health — degraded” описано в интернете и подразумевает форматирование NAND памяти, но обычно, такой метод не дает никакого результата.

HP ProLiant MicroServer Gen8 – недорогой и бесшумный сервер начального уровня. Идеально подходит в качестве файл-сервера для небольших предприятий. Сервер — простой в использовании и обслуживании. Десктоп форм-фактор позволит небольшим предприятиям сократить расходы и в то же время улучшить производительность, эффективность и безопасность своих бизнес-процессов.

HP ProLiant iLO Management Engine

HP iLO Management Engine представляет собой полный набор встроенных инструментов, которые работают на протяжении всего жизненного цикла сервера: первоначальное развертывание, постоянное управление, оповещение, удаленная техническая поддержка. HP iLO Management Engine поставляется со всеми серверами HP ProLiant Gen8 без ограничений по функциональности. iLO включает в себя функции по конфигурированию железной части сервера: все драйверы, агенты, прошивки, конфигурационные утилиты хранятся в NAND-памяти на материнской плате. iLO Management Engine производит мониторинг состояния, проверка состояния железа и функции оповещения теперь вынесена на чип iLO 4 и не зависит от ОС и процессора. В NAND-память системы Health System постоянно записываются состояния компонентов сервера и изменения в конфигурации железа.

iLO health — degraded

Обновить iLO 4 до версии 2.61 или выше.
Зайти в интерфейс GUI iLO с правами Администратора
Видим iLO Health — Degraded. Кликаем на «iLO Health»
Кликаем на «Format Embedded Flash and reset iLO».
iLO перегружается — ждём результатов.

1. Разбираем сервер, отключаем шлейфы от материнской платы, снимаем материнскую плату.

2. Снимает материнскую плату сервера с салазок, снимаем батарейку CMOS и процессор.

3. На паяльной станции меняем микросхему памяти.

4. Заходим в интерфейс iLO с правами Администратора. Выполняем Reset iLO.

5. Радуемся результату.

Наши услуги:

Неоригинальные диски в серверах: проблемы с китайскими салазками для серверов HPE

При работе с железом, потребительского ли, бизнес сегментов — не важно, сложно представить что-то, вызывающее столько «любви и обожания» к производителю, как «белые списки» совместимого оборудования и расходников.

Вроде бы все хорошо: никаких препятствий для работы устройства нет, но при подключении получаем что-нибудь в духе «ваше устройство не поддерживается, не хочу с ним работать», а то и вовсе гордое молчание и отсутствие признаков жизни.

Гораздо веселее наткнуться на подобное сообщение там, где увидеть его ну никак не ожидаешь. Обыденная, вроде бы, ситуация: вылетел диск из raid’а. Заменил таким же, массив должен бы перестроиться и продолжить работать. Да не тут-то было!

Бывает так, что рейд-то перестроился, а сервак продолжает гореть красным, и статус «degraded» так никуда и не делся. С этой проблемой в последнее время я сталкивался довольно часто.

Итак. У нас есть сервер производства HP восьмого, девятого и даже десятого поколений. DL360, 380, бывает и на лезвиях BL460c, BL660 и так далее. Raid-контроллер, соответственно, Smart Array P420, P222, P820, P440ar, P840 и иже с ними. Есть диск. И есть описанная выше ситуация.

Так это выглядит на экране:

А вот так в сервере:

Здесь, на верхнем диске, наблюдается зацикленная круговая индикация и, при сборке массива, он не помечается синим.

Сервер подсвечивается красным светодиодом, в ILO висит ошибка, статус «degraded»:

И degraded он, разумеется, по стораджу:

Если зайти в SSA и посмотреть на диск, то увидим еще одно подтверждение.

Забавно, ведь оба диска оригинальные. Здесь хорошо видно голограмму:

В чем же дело? Ответ прост: в салазках.

С восьмого поколения в Хьюлете решили, что салазка — это не просто кусок пластика и металла со световодами, а сложное техническое решение.

Собственно, оригинальная салазка только на одном диске. Китайские работают по схеме великого рэндома: из десятка нормальными могут оказаться штук пять.

Получается, что виноват не HP, а китайцы, и все добрые слова уходили не по адресу.

Вот здесь хорошо видна разница поведения китайца и оригинала: все та же, не прекращающаяся, круговая индикация.

Откуда вообще проблема? Зачастую, люди приобретают салазки для установки не оригинальных дисков в сервер, например SSD, либо просто большего объема. Что характерно, контроллер проверяет только салазку, а не диск.

Бывает так, что оригинальные салазки уже использовались для установки неродного диска и, в результате, накапливается большое количество HP’шных винтов без салазок, которые однажды приходится использовать, для чего покупаются дешевые и, вроде бы, ничем не отличающиеся от оригинала, китайские реплики.

Как опознать китайскую «реплику»? Сейчас покажу.

Вот в такой коробочке она обычно поставляется.

Далее, на всех фото сверху реплика, снизу оригинал.

1. Хорошо видно, что отличается цвет пластика. Оригинал посветлее будет.

Наличие или отсутствие наклейки с указанием модели диска может быть дополнительным признаком, но не гарантией. На реплике с высокой вероятностью никакой наклейки не будет.

2. Маркировки на левой боковине. У оригинала, помимо партномера, выбит логотип hp.

3. Отличается и контактная плата. У китайца желтая, у оригинала оранжевая, почти коричневая. Плюс, у оригинала есть маркировка.

4. Изнутри на той же левой части оригинала выбит партномер:

5. Отличается цвет метала правой стороны, у китайца более насыщенный:

Мораль сей басни такова: не все салазки одинаково полезны. Плюс ко всему этому веселью реплики, зачастую, довольно туго заходят на посадочные места. До такой степени, что потом вынуть диск без повреждения салазки просто невозможно.

Новости

Серверное оборудование HPE с НДС и в Лизинг
Цены на серверы HPE DL360 10 поколения снижены
Поступление серверов HPE G9 SSD диски и серверные процессоры V4
Получили много СХД HPE 3PAR 9450 серии

Статьи

Серверные системы HPE Apollo
HPE Synergy — история развития серверного оборудования
Преимущества оригинальных дисков HP

HP Smart Array — cache module status degraded

Hewlett Packard Enterprise

Статья-исследование. Докопаемся до источника проблемы и исправим её.

Как обычно ночью сработал мониторинг. Хорошо, что он сработал, даже отлично. Плохо что ночью.

На сервере HP Proliant DL360 Gen9 произошёл сбой. iLO выплюнуло ошибку, zabbix сервер поймал событие, сработал триггер аппаратной проблемы. По триггеру отправилось письмо, SMS и сработал скрипт, который отправил на Asterisk call-файл. И наша телефония дозвонилась до меня, ночью, зараза. Я не разобрал что там промямлил в трубку робот, но главная задача по поднятию админа была выполнена, как говорится, смотрите подробности в SMS.

Отказал кэш RAID контроллера Smart Array P440ar:

Cache Module Status — Degraded

hpe

На первый взгляд проблема не критичная, может ждать до утра. А утром начались проблемы, — сильная деградация по дискам. Больше суток ушло на то, чтобы переместить виртуальные машины с данного гипервизора на другой сервер. Я не замерял, но скорость переноса данных увеличилась раз в пять. Некоторые сервисы пришлось остановить.

Оказалось, что кэш RAID контроллера заметно оптимизирует работу массивов.

Поиск проблемы

Сервер уже не на гарантии, справляться с проблемой придётся самому.

Есть несколько возможных точек отказа:

Проблема программная, возможно, из-за недавней прошивки RAID контроллера. Может помочь перезагрузка, сброс настроек RAID контроллера, выключение-включение кэша.
Проблема с RAID контроллером. Может помочь прошивка или замена.
Проблема с модулем кэша. Поможет разборка-сборка, замена модуля кэша.
Проблема с проводами или контактами. Поможет разборка-сборка, переподключение батарейки, замена батарейки.
Проблема с батарейкой. Поможет замена батарейки.

Первым делом перезагрузил сервер и iLO. Не помогло.

Проверил статус батарейки. Статус OK.

hpe

Непонятно, загрузимся в HPSSA (HP Smart Storage Administrator). Перезагружаем сервер, при загрузке нажимаем F9 для входа в System Utilities.

hpe

Выбираем System Configuration.

hpe

Выбираем проблемный контроллер: Embedded RAID 1: Smart Array P440ar Controller.

hpe

Выбираем Exit and launch HP Smart Storage Administrator (HPSSA).

hpe

Выбираем (уже выбрано) Smart Storage Administrator. Сюда же можно попасть выбрав F10 (Intelligent Provisioning) при загрузке, но нужно будет успеть переключить пункт в этом окне.

hpe

Дожидаемся загрузки Smart Storage Administrator.

hpe

Видно, что на RAID контроллере Smart Array P440ar светится предупреждение.

hpe

Текст ошибки здесь более информативный:

Smart Array P440ar in Embedded Slot has one or more cache module batteries/capacitors that are recharging. Caching operations such Expansion, Extension, and Migration are temporarily suspended until the batteries/capacitors are fully charged. Caching operations will automatically resume when charging is complete.

Получается, батарейка находится в процессе зарядки. Такое случается, если воткнуть разряженную батарейку. Ошибка пропадёт после полной зарядки. Но в моём случае батарейка уже давно установлена, ошибка сама не пропадает.

hpe

Server → Actions → Diagnose.

hpe

View Diagnostic Report.

hpe

Начинается сбор диагностических данных.

hpe

Кэш RAID контроллера отключён, других ошибок нет. Полистал отчёт, ничего особенного не обнаружил.

Посмотрим на кэш. Tools → Cache Manager → Controller Cache → Controller Cache Details.

hpe

Cache Status: Enabled, but not currently active.
Cache Status Details: Cache disabled; power source charging is low.
Battery/Capacitor Status: Recharging

Кэш отключён, т.к. батарейка заряжается, а уровень её заряда низок. Можно посмотреть больше деталей: View more details.

hpe

Более подробная информация нам особо не помогает, единственное, что интересно в нашем случае, это запись:

Enable Write Cache When Battery/Capacitor Not Present or Not Completely Charged: Disabled

В кэше контроллера есть опция, позволяющая включить кэш при отсутствии батарейки или при низком её заряде. Если бы сервер был боевым, если бы нам срочно нужно было наладить работу сервера, то включение этой опции нам бы очень помогло. Вот только включить эту опцию мы не можем, так, как кэш в настоящий момент отключён: There are no available actions. Печаль, но есть обходной манёвр.

Временное решение проблемы

Помимо кэша контроллера у каждого физического диска есть собственный кэш, который по умолчанию в RAID массивах отключён. Включим.

hpe

Smart Array P440ar → Actions → Configure → Modify Controller Settings.

hpe

Меняем галку Physical Drive Write Cache State на Enabled. Save Settings.

hpe

Controller Settings were successfully saved. Настройки сохранены. Как вы думаете, что сейчас произойдёт? Правильно, кэш RAID контроллера отключится. и все его предупреждения сбросятся.

Посмотрим на кэш. Tools → Cache Manager → Controller Cache → Controller Cache Details.

hpe

Cache Status: OK
Battery/Capacitor Status: OK

Даже батарейка перестала заряжаться. Но главное не это, появилась кнопка Modify Caching Settings, нажимаем.

hpe

Нас предупреждают, что включение кэша с плохой батарейкой приведёт к потере данных при внезапном отключении питания. Но всё же мы теперь можем, если очень захотим, включить опцию «Enable Write Cache When Battery/Capacitor Not Present or Not Completely Charged». Я не буду включать, срочного у меня ничего нет. Если сейчас снова отключить кэш физических дисков, то ошибка не вернётся до следующего цикла проверки батареи.

Становится понятно, что проблема в самой батарейке или в её проводах. Убедимся в этом. Перезагружаем сервер, жмём F9, во встроенных приложениях загружаем диагностический режим. Выполняем экспресс-проверку системы.

hpe

При проверке батарей: Основная — Заменить.

Решение проблемы

Меняем батарейку в сервере:

После замены батарейки снова загружаем диагностический режим и выполняем экспресс-проверку системы.

hpe

Проверка батареи : Основная — ОК. Ошибок нет.