HADOOP 의 설계시 가정한 사항

클라우드 컴퓨팅/HADOOP

HADOOP 의 설계시 가정한 사항

dp. 2011. 1. 14. 22:16

질문 :
하둡의 HDFS나 GFS그냥 하나의 namenode 즉, 메타데이터 서버에만 메타데이터들을 두고관리하는 것인가요?

가만히 보니 그러기엔 병목현상이 너무 심해질 것 같아서요.

다른 분산파일 시스템들도, 하나의 메타데이터 서버만을 두진 않는걸로 알고있습니다.

일반적으로 메타데이터들을 여러개 묶어 클러스터화 시켜서 , 관리하는 걸로 알고있는데요.

hadoop 의 HDFS 나 GFS에서 사용하는 메타데이터 자체에 대한 관리는 어떻게 이루어지나요?

여러개의 메타데이터서버를 두어 분산시켜저장해두는 것인가요?

답변 :
GFS나 HDFS는 하나의 master node가 모든 메타데이터를 관리하고,

메타데이터를 효율적으로 관리하기 위해 특별히 신경쓰는게 없습니다.

왜냐하면 그래도 master node에 병목 현상이 나타나기 어려운

특별한 환경을 위해 설계되었기 때문입니다.

이들이 가정한 환경은,

1) 주로 수백MB~GB급의 대용량 파일들을 다루고,

2) small/random i/o는 거의 없는 경우입니다.

그렇기 때문에 I/O에 비해서 메타데이터 관리 비용이 크지 않아서

master/slave architecture로 설계된 것입니다.

물론 위와 같은 환경에서도 전체 노드 수가 무한히 많아지면

master node에 병목현상이 나타날 수는 있겠으나,

현재 구글, 야후 등에서 수 천대 규모로도 잘 운영하고 있는 것으로 봐서는

1대의 master node로도 필요한 만큼의 scalability(확장성)를 얻을 수 있다고 볼 수 있죠."
-------------------------------------------------------------------------------------
깔끔하다...
내 질문에 대한 kiast 이대우님의 답변...

감사합니다.

저작자표시 비영리 변경금지 (새창열림)