Многоуважаемые юзернеймы, нет ли среди Вас техспецов из IBM?

Tagged with →  

28 Responses to нет ли среди Вас техспецов из IBM?

  1. Adnon:

    660$ в час за сапорт, это ж офигеть можно…

  2. Adnon:

    у меня гемор с DS3400 — в однин из слотов что не вставь пишет:

    Storage Subsystem:  IBM3400
    Component reporting problem:  Drive in slot 4   
    Status:  Optimal   
    Location:  Controller/Drive enclosure
    Component requiring service:  4     
    Service action (removal) allowed:  No
    Service action LED on component: Yes   
    Working channel:  0

    Drive — Loss of Path Redundancy
    What Caused the Problem?
    A communication path with a drive has been lost. The Recovery Guru Details area provides specific information you will need as you follow the recovery steps.

  3. RewTunes:

    У меня в такой же DS3400 винт вчера вылетел. IBM-цы по гарантии взялись привезти аж 12 -го декабря.

  4. RewTunes:

    Проверил на гарантию?

  5. NirMilk:

    У айбиэмщиков есть форум http://www.aixportal.ru/
    я про AIX спрашивал и получил вменяемые ответы.

  6. IkeSnow:

    А что ты туда, пардон, вставлял? Родной диск соседний, незанятый (если таковой есть) — пробовал? Диск меняется согласно процедуре замены?

    Кроме основного сообщения у тебя в SMclient есть ещё логи, запости оттуда всё critical, что происходит после вставки нового диска.

  7. Adnon:

    А что, пардон, долбоебов подпускают к боевым дисковым полкам, чтобы вставить туда что-то кроме винта с нужным FRU? Она пометила диск битым, я ей новый дал. А она, сука, сказала на новый — нет реданданси. Вставил ваще другой терровый диск — та же хуйня. Вставил на место старый битый, и оппля — он уже не битый, а просто реданданси у него хуевый также как и у остальных двух… Контроллер чтоли второй его не видит? Короче какая-то байда со слотом.

    вот логи
    Image #1644621, 309.9 KB

  8. Adnon:

    да, полке больше 3 лет.

  9. Adnon:

    это зависит от того, сколько ты у них уже купил)
    Я обычно говорю «ок, я вследующий раз при покупке подумаю IBM или HP» — работает.

  10. Adnon:

    Боюсь не форум мне надо, а работника, который за бабло мимо ИБМа хочет поработать.

  11. IkeSnow:

    > А что, пардон, долбоебов подпускают к боевым дисковым полкам, чтобы вставить туда что–то кроме винта с нужным FRU?

    Ты просто не поверишь, сколько люди всего могут сделать «не так» просто по причине внутренней убеждённости, что знают, как надо 😉 я ж с тобой незнаком, потому проще спросить.

    Прошивка на массиве актуальная? (это, кстати, первое, что ибэмэ за свои деньги сказал бы сделать — апдейт до актуальной. понятно, что в продакшене толку от такого совета — ноль). Пока навскидку ничего не скажу. Собери логи (collect all support data) и выложи куда-нибудь, если есть возможность?

  12. IkeSnow:

    насчёт «байды со слотом» — не торопись. Мне этот LSI (не 3400, правда, а 4500) попил немало крови именно кривотой своей прошивки.

  13. Adnon:

    не выйдет шить, бро( В бою полка. Без вариантов. Мне проще забить на один слот (а я три разных винта там попробовал для этой самой полки шитых оригинальных), чем все виртуалки с массива 5террового уносить. 1сники вздернуться.
    Полная коллекция тут http://nekaka.com/d/OCgy09RrBG. Спасибо, что тебе не лень.

  14. IkeSnow:

    Значит так, что видится мне. Всё это с какой-то долей вероятности и основано на личном опыте.

    Прошивка у тебя чуть ли не одна из первых на этом массиве, более чем пятилетней давности. Ошибок в прошивках (не конкретно этой, а вообще) для всей серии DS-ок у LSI было просто до-хе-ра. Так тебе однозначно дорога к апдейту (почитай внимательно, возможно, нужно будет прошиваться через промежуточную прошивку).

    Меня, например, всегда радует, как индусы (или кто там их писал) реализовали обработку сложных ситуаций. Если что не так — контроллеры тупо ребутятся (сами или друг-друга). Спрятали голову в песок и, возможно, всё починится само. У меня была ситуация, например, когда контроллеры ребутили друг-друга по кругу. Очень весело.

    Что можно сделать сейчас. Возможно (подчёркиваю — возможно) тебя на время спасёт перезагрузка контроллера B (на котором висит drive channel 2). Если ты сделаешь это в период минимальной нагрузки (ночью), стоя рядом с массивом — всё будет ок. Ну, перед ребутом лучше все луны перекинуть ручками на контроллер А, разумеется.

    Из печального — тебе всё-равно придётся разобраться с этой ситуацией, чтобы перепрошиться.

    Из совсем печального — категорически не рекомендую тебе оставлять всё в таком виде. Учитывай то, что я писал выше об обработке нештатных ситуаций старыми прошивками. В перспективе ты вполне можешь потерять данные, если на твою теперешнюю проблему наложится какая-нибудь новая.

    Вариант с физическим повреждением оставь на крайний случай, если всё вышесказанное не поможет.

  15. IkeSnow:

    > Если ты сделаешь это в период минимальной нагрузки

    Это я к тому, что оно и так должно быть ОК, поскольку операция не деструктивная, но аура админа рядом не позволит вылезти новым ошибкам прошивки, будем надеяться.-)

  16. Adnon:

    А у меня смотри как щас все — полка в бою, ковыряться ребутить — не вариант. Что имею — мертвый слот, ибо ТОЛЬКО ОН ругается на недостаток пути до второго контроллера. Рейд в данный момент не дигрейдед, он же сразу хотспара сожрал, а я потом еще и битый диск руками на другой принудительно подменил с той же полки (правда он объемом больше, сука.). Так что в целом я сейчас имею мертвый слот и полностью рабочие рейды. Все рейды. Даже те, для кого контроллер Б дефолтный.
    Однако согласен что это херня, поэтому я сейчас думаю купить 4 диска по 3 Тб в свою DS3512, где есть свободное место и все виртуалки плавно уношу туда…
    В противном случае либо дорого (SLA тоже никто не отменял), либо стремно =

  17. IkeSnow:

    да не, я по логам видел, что у тебя с него всё выведено.

    моё дело предупредить — с этой ебалы надо аккуратно смигрировать как можно быстрее, вот я к чему.

  18. RewTunes:

    А ни у кого не возникает периодически алерта «Logical Drive Not On Preferred Path» на DS3400 и подобных?
    Каждый раз после после переноса кластера exch-a на другой нод, DS3400 сигналит что надо бы поменять ownership-а для logical drive.

  19. Adnon:

    я хер кладу. Это rdac заставляет контроллер не предпочтительный пользовать на полке и она на это жалуется. Я, лично, расцениваю это как инфо-сообщение, а не алерт. Пока контроллер не захлебывается, мне похрен. Если таких красавцев (операционок, где rdac решает по какому пути идти) станет много — тада да, надо будет думать.

  20. Adnon:

    «надо аккуратно смигрировать как можно быстрее»
    пугаешь((( бля…
    Но контроллер то работает же… На нем рейды висят…
    ррррррр

  21. IkeSnow:

    Маловато данных, но судя по этому описанию, у тебя так by design.

    Подозреваю, что с каждой ноды лун видится только через один контроллер. Соответственно переезжает кластер — переезжает лун.

    Коммутатор между машинами и массивом есть? Сколько адаптеров (SFP) в каждой ноде?

  22. IkeSnow:

    Да нет, так быть не должно. Страшного в смене ownership-а нет ничего, но крайне желательно понимать в каждом конкретном случае, что именно вызвало эту смену.

    В моих операционках (AIX), например, люди от большого ума могут настроить round-robin утилизацию путей по путям вместо failover. Делается одной командой. При этом, разумеется, каждое обращение по новому пути вызывает LUN trespassing, ну и производительность падает соответствующе.

  23. RewTunes:

    Коммутатора нет, в каждой ноде 1 sfp.
    Оба нода exch-а видят 3 луна. При переезде кластера на другой нод Storage Manager сигналит Needs Attention! — Logical Drive Not On Preferred Path.
    Меняю там же в Storage manager-е ownership–а для лунов — и алерт пропадает до следующего переноса кластера.
    Image #1646475, 33.2 KB

  24. IkeSnow:

    ну, в-общем, всё как я писал, ага.

    У тебя каждый узел видит только один контроллер. Соответственно, при переезде кластера переезжает и LUN, о чём тебе и сигналит SM.

    В твоём случае (с прямым подключением) по-другому и не получится, так что у тебя всё ОК.

  25. Adnon:

    Нутк это уже вопрос настройки rdac )
    Сдуру можно и хуй сломать, несмотря на то что это гидравлика.

  26. Adnon:

    С моим вопросом технари из Тринити сказали следующее «Скорее всего вышел из строя порт на экспандере. Жить именно с таким дефектом можно неограниченно долго.
    Но, порт на экспандере может потянуть за собой весь экспандер. Ждать этого момента не стоит.»
    Поэтому я докупаю винты в 3512, переезжаю все барахло оттуда на праздниках и начинаю перепрошивать в 3400 все что можно.
    Кстати, выручишь? ) Проконтролируешь? )
    А то у ИБМа сам черт ногу сломит, а ты уже сталкивался и даже говоришь, что есть прошивки, которые ставятся только поверх какой-то предыдущей и т.п.
    Если и после перепрошивкиребута нихера хорошего не получится — печаль.

  27. IkeSnow:

    конкретно 3XXX серии у меня нет (я бы и DS4XXX выкинул с радостью).

    Общие же рекомендации такие: нужно просто взять — и почитать всё, относящееся к самой стабильной (это может быть не обязательно последняя) версии прошивки.

    changelog к твоим прошивкам замечательный, кстати: http://delivery04.dhe.ibm.com/sar/CMA/SD…. Видно, какое ебическое число багов было поправлено с 2009-го.

    Тебе, после скачивания прошивки, нужно очень внимательно проштудировать README, там будет всё написано. Не забываем, что версия Storage Manager тоже важна (хотя это там напишут).

Добавить комментарий