HP - array controller failure

2019. 2. 22. 18:17IT/Server

HP - array controller failure


HP ProLiant DL380 Gen8과 HP ProLiant DL380 Gen9 장비를 운영하면서

서버가 뻗어버리는 이슈 중 한 가지를 공유하려고 한다.

OS는 Cent OS6.x이다.

Array controller failure

Array Contoller란, 여러개의 Disk를 하나의 Disk처럼 인식 해주는 장치로

HP에서는 HPE Smart Storage Administrator로 접속하여 Raid 구성이 가능하다.


HP 상 로그는 회사 보안 때문에 첨부할 수 없지만, hpasm(hp-health 데몬)에서는 해당 이슈가 있을 때

Array Controller Failure 메시지를 남기고 서버가 자동 reboot된다.

(구글에서 찾은 비슷한 에러메시지)


이런 경우, Gen 8장비는 메인보드에 onborad이므로 메인보드 교체가 필요하고,

Gen 9장비는 모듈형식이기 때문에 해당 모듈을 교체해야한다.

좌측부터 메인보드, Primary PCIe riser, Array Controller 이다.

Array Controller에 나와있는 선은 확장 모듈로, Gen 8의 Cache module로 보면 된다.

참고로, PCIe에 Array Controller를 탈착, 장착하기 위해서는 스타 드라이버가 필요하다.



최근, Gen 9서버에 Raid 0으로 서버를 구축했는데 이 환경에서는 

Disk Lock이 걸린 상태가 되는 현상이 있었다.

(동일 모델, 동일 구성환경에서 Raid 5구성은 Gen 8과 같이 시스템이 reboot되었다.)


input/output error가 발생하며 파일 read만 가능하고 write는 불가능 한 상태인데,

system call은 정상으로 동작해 WatchDog도 시스템 reboot을 하지 않는 상태였던 것 같다.



shutdown, reboot 명령어가 듣지 않기 때문에 system call 명령어인 init 0 으로 서버를 내려 array contoller를 교체하여 정상화하였다.

필자가 운영하고 있는 Gen 9의 경우 확장 모듈(Cache Module)도 장착되어 있어, 함께 교체하였다.



사실, Array controller failure가 발생하며 서버가 리붓되는 경우, 명확하게 Array Controller가 문제라고 볼 수는 없다.

실제로, 필자가 운영하는 환경의 경우 서버가 올라오면 운영AP가 자동으로 올라오도록 설정되어 있는데

Array Controller가 발생하고 서버가 리붓되어 올라오고 나서 AP가 동작하는데 전혀 문제가 없었기 때문이다.


물론 즉시 Gen 8은 메인보드를(앞서 언급했듯이, Array controller가 onboard이기 때문), Gen 9는 Array Controller를 교체하긴 했다.

HP에 정식 접수하여 확인한 결과 스토리지가 아닌 서버에서 스토리지처럼 사용하고 있어 발생하는 것으로 보인다고 가이드를 받았다.

실제, 해당 이슈가 잦은 서버는 HDD와 SSD를 하나의 Array Controller에 하이브리드 구성하여 스토리지처럼 사용하며,

I/O가 굉장히 많이 발생하는 서버이다.


하지만, 이런 환경이 아닌 Gen 8장비에서도 동일한 이슈가 발생하여 Firmware 패치 등 여러 조치를 취해보았지만,

특별히 개선되어 보이는 점은 없었다.

아마 Array Controller failure 메세지는 어떤 HW 부품 등에 문제가 발생하였을 경우 default로 뿌리는 메세지가 아닐까 싶다.

실제로, AHS로그 분석 결과 BackPlane 문제로 확인되어 SAS cable과 함께 교체한 적이 있었기 때문이다.



Mission Critical환경에서는, 이중화 구성이 되어 있어도 이런 이슈는 굉장히 민감할 수 밖에 없다.

SLA(service level agreement)협약이 맺어 있는 경우 이중화 구성으로 서비스에 이상이 없더라도,

서버 down 시점부터 시간을 측정하여 위약금이 물리기 때문이다.


최근 신기술 동향 교육에서 후지쯔가 이런 이슈로 안정성을 강화하여 HW 이슈가 있을 때 서버 강제 리붓을 하지 않는다고 하였는데,

HP도 Critical한 HW 이슈가 아니라면 경고 메시지를 주고, 강제 리붓을 하지 않는 방향으로 가면하는 바람이다.




'IT > Server' 카테고리의 다른 글

HP서버 정보 보기 - hpasmcli  (1) 2018.08.05
HP서버 정보 보기 - hpssacli, hpacucli  (1) 2018.08.05