HP ML380 + P410 problem

Hardware, web hosting, server hosting a housing, peering

Moderátor: Moderátoři Živě.cz

Odeslat příspěvekod Nexus_sk 5. 11. 2012 22:45

Zdravim.
Uz na dalsom serveri HP som narazil na nasledujuci problem: Server z casu na cas (uplne nahodne) zacne do logu generovat hlasenie o chybnom sektore na logickom disku, ktory je fyzicky tvoreny raidovym radicom P410i a dvomi SAS diskami zapojenymi do mirroringu. Nasledne nezostava nic ine, len server natvrdo vypnut. Diagnostika servera aj radica neodhalila nic neobvykle, to iste plati aj pri diskoch. Jeden server je ML360, dalsi 380, spaja ich jedine tento radic.
Ako SW je u oboch serveroch pouzity Windows, na jednom 32bit (2003 StandardEdition), na dalsom 64bit (2007 SBS).
Oficialna podpora HP ma odporuci na novsi firmware a ovladace, co bohuzial problem nevyriesi.
Mate niekto nejake napady, kde by mohol byt problem? Veskere moje pokusy o nasimulovanie chyby neboli uspesne (umele vytazenie serverv pohode ustal, niekedy sa mu toto stane nad ranom, kedy vsetci spia, inokedy niekedy v noci).
Vopred dakujem za akekolvek postrehy.
Nexus_sk
Junior

Odeslat příspěvekod soban 6. 11. 2012 01:55

A proč tam nedáš ten nový FW? Proč si myslíš že to nepomůže ?

Je ten chybný sektor pořád ten stejný a nebo pokaždé jiný ?

Co kondenzátory nejsou nafouknuté? Co teplota kolem řadiče a HDD? Co skusit vyměnit zdroje ?
/----------------------------------------\
| Petr Šobáň |
| Olomouc |
\----------------------------------------/
soban
Pokročilý

Odeslat příspěvekod Nexus_sk 6. 11. 2012 07:15

Novy FW aj s novymi ovladacmi som tam skusal davat nie raz. Niekedy server isiel mesiac, niekedy pol roka, niekedy tyzden. Vysledok je nsrdeny zakaznik a odpinkavanie medzi supportom MS a HP. To iste plati aj o updatoch na Windows. Neviem ten problem ani nasimulovat, ze by som postupne prisiel na to, co ho sposobuje.

To je prave to zaujimave - chybu hlasi Windows, ze je vadny sektor na LOGICKOM disku (windows vidi jeden logicky disk, fyzicke disky vidi az radic, windows ich nema sancu vidiet). Preto ma tato chyba najviac zaraza, kedze Windows hlasi chybny sektor disku, ktory fyzicky neexistuje, nema mat teda ani vadne sektory. Diagnostika radica a ani samotnych diskov neukazuje na skutocnost, ze by niektory z dvojice diskov mal co i len jediny vadny sektor (pre pripad, ze by ich radic nespravne, alebo chybne realokoval). Ak by aj niektory z diskov mal vadny sektor, tak by som si to uz v diagnostike vsimol a aj ovldacie rozhranie radica by hned vykazovalo chybu.

Na to som sa pozeral ako prvu vec, ale v tomto pripade nie su nafuknute ani kondenzatory na radici, ani na zakladnej doske servera (kondenzatory v zdroji bohuzial odkontrolovat neviem, kedze je zdroj zaplombovany, nemam moznost si pozicat iny spolahlivy zdroj na dlhodobe testovanie).

Este vyskusam vymenit UPS jednotku (mozno tam nastava nejake kolisanie, s ktorym si APC 1500RS nevie poradit, ale potom by sa mal cely server ako taky vypnut, nie zostat v neocakavanom stave).

Dakujem za tipy, skusim tu UPS a dam vediet, ci som sa nejak pohol, alebo problem pretrvava. Najhorsie je, ze ho neviem ani nasimulovat, musim vzdy pockat, kym mi zakaznik vynada do pohlavnych organov aby som zistil, ci som uspel, alebo nie.
Nexus_sk
Junior

Odeslat příspěvekod soban 6. 11. 2012 10:39

To že fyzicky ten sektor neexistuje nevadí - prostě hlásí pořád ten stejný a nebo se to mění - důležité je proč SW si myslí že je HDD větší než je ve skutečnosti a pak hlásí chybu - což je logické pokud tam ten disk tak velký není.

Jinak co paměti? Nehlásí nějakou chybu?

Pak už mě napadají pouze takové věci že skusit vyměnit zdroj, řadič, hdd, ram.....(ovšem kde si to půjčit na test)
/----------------------------------------\
| Petr Šobáň |
| Olomouc |
\----------------------------------------/
soban
Pokročilý

Odeslat příspěvekod Nexus_sk 6. 11. 2012 11:12

Vadny sektor tam na logickom disku nema co existovat, ak ma niektory fyzicky disk vadny sektor, tak ho ma radic automaticky realokovat a hodit chybu a nie ze mi tu chybu hodi sam Windows a ovladaci panel radica sa tvari vysmiate.

Chybova hlaska stale ta ista (t.j. cyklicky sa do logu zapisuje jeden a ten isty zaznam). Nasledne treba server "resetovat" a potom ide normalne dalej az opat niekedy nastane tento isty problem.

RAM som otestoval nie raz a ak by bola vadna RAM, tak by to robilo rozne chyby, nerobilo by to s touto jedinou. Netestoval som RAM radica (ma na sebe 256MB), tu sa musim spoliehat na to, ze si to radic ustrazi sam.

Ano, musel by som si kupit presne takyto isty server a postupne vymienat komponenty az by som nasiel ten, ktory je vadny. Osobne si myslim, ze na vine bude radic, ale na dvoch rozdielnych serveroch???

Vdaka za tipy.
Nexus_sk
Junior

Odeslat příspěvekod Matysek 6. 11. 2012 16:37

Kazdy radic HP SmartArray umi dokumentovat - logovat sve pocinani a pokud dokumentuje OS chybu, muzes ji porovnat se zaznamem radice.

Druhak, ne kazdy HDD se hodi pro pouziti se SmartArray radicem, coz resi prave HP primo skrze firmware HDD. Jak mas nastavene pole, radic, spravu se nezminujes.
Definice moderatora Zive? Zookeeper. Vyhledat zbloudilou ovecku, ustajit, vycesat, nakrmit a zalozit chudince nadaci. Ovecka prece nemuze 5 minut myslet. Vsichni mame povinnost oveckam uvarit, precist pohadku a prispet do nadace.
Matysek
Expert
Uživatelský avatar

Odeslat příspěvekod Nexus_sk 6. 11. 2012 20:46

Ako sa ku tomuto zaznamu viem dostat?

Disky boli zakupene priamo so serverom a radicom (jedna dodavka). Su sice od Seagate, ale maju HP PN. Pravdepodobnost, ze by s nim nespolupracovali je minimalna, ale mozna. Firmware som nahraval uz nie raz, ale mozem opat skusit nahrat najnovsi + ovladace. Je to ale opat len pokus ...

Co konkretne Ta zaujima ohladom nastaveni pola? Zmienil som sa, ze pole je mirror, na radici je zapnuta akceleracia (zapisuje na oba disky, ale cita ako pri stripovani).

Nemam problem prilozit logy, poprosim ich zoznam, ale obavam sa, ze budu pomerne velke.
Nexus_sk
Junior

Odeslat příspěvekod soban 6. 11. 2012 23:49

Pokud to vypisuje pořád stejnou chybu na stejném místě tak to vidím že to asi bude dělat řadič, ale proč nevím nějaké logy přímo od řadiče.

Nebude vadná baterka na řadiči a při nějakém výpadku spůsobí chybu v ram řadiči?
/----------------------------------------\
| Petr Šobáň |
| Olomouc |
\----------------------------------------/
soban
Pokročilý

Odeslat příspěvekod Nexus_sk 7. 11. 2012 15:34

Nemoze, radic nema bateriu (ked si dobre pamatam, tak toto je verzia bez zalohovanej RAM). Ale vdaka za tip, na to sa pozriem, kedze by to mohla byt pricina.
Ak by tam bola zalozna bateria a mala by uz nepostacujucu kapacitu, neodhalila by to diagnostika radica? Ak by tam tam aj nastalo to cuknutie, kedy to UPS nevie vykryt, tak je to radovo par milisekund a to by si to mohla pamatat. Otazkou este zostava, co to spravi s diskami ...

OK. Vyskusam nasadit inu UPS a budem to sledovat. Vdaka za tipy.
Nexus_sk
Junior

Odeslat příspěvekod Milanr1 7. 11. 2012 16:10

Příčinou může být cokoliv. Bug v bedně. ;-)
Jak je nastaven automatický restart serveru?
Proč nepředcházíš úplnému zatuhnutí serveru?
Podle Tvého popisu je OS v okamžiku prvního záznamu v Eventlogu ještě funkční a dokáže se automaticky korektně restartovat.
Co s tím?
Nastav job do Scheduleru, který po prvním výskytu chybové hlášky korektně restartuje server včetně diskového pole.
Milan
Milanr1
Pokročilý
Uživatelský avatar

Odeslat příspěvekod soban 8. 11. 2012 02:29

Tím vyřeší následek, ale pořád nezjistí příčinu.

Jinak na tom řadiči by měla být baterka ne pokud používá spožděný zápis na HDD.

Teď jsem se díval na parametry a pokud jsem to přeluštil správně tak ten řadič buď má normální ram zálohovanou baterkou, a nebo flash paměti.

Takže neodchází ty flash paměti ? A nebo tam fakt nemáš zašitou baterku ?

Zkusil bych si fakt od někoho půjčit jiný řadič a na jednom stroji to vyměnit zda to nedělá on?
/----------------------------------------\
| Petr Šobáň |
| Olomouc |
\----------------------------------------/
soban
Pokročilý

Odeslat příspěvekod Milanr1 8. 11. 2012 06:46

Přesně tak:
nejdříve se řeší plná funkčnost serveru, pak se pátrá po příčinách chybových hlášek.
Opačný postup = nesmyslný.

// Tohle není špatný nápad:
Nexus_sk píše: Vyskusam nasadit inu UPS

1) Každé UPS není kompatibilní s každým zdrojem; u redundantních se může případná nekompatibilita násobit. Kompatibilitu s daným typem zdroje musí zaručit výrobce UPS.
2) UPS může být příčinou rušení => zkontroluj, zda je fyzicky umístěno > 25 cm od serveru.
Milan
Milanr1
Pokročilý
Uživatelský avatar


Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 0 návštevníků