分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

1
Copyright © 2014 NTT DATA Corporation
(株) NTTデータ基盤システム事業本部
鯵坂明
2014/10/18 OSC 2014 Tokyo/Fall
分散処理基盤Apache Hadoopの現状と、
NTTデータのHadoopに対する取り組み

2
NTTデータOSSプロフェッショナルサービス
Hadoop関連のR&Dやシステム開発に従事
約1年前からHadoop本体の開発に参加
ドキュメント
バグフィックス
運用強化
などなど
自己紹介：鯵坂明(あじさかあきら)

3
Hadoop概要
Hadoop最新機能
NTTデータのHadoopコミュニティに対する取り組み
アジェンダ

4
Hadoop概要

5
Hadoopとは？
オープンソースの大規模分散処理フレームワーク
•Googleの基盤ソフトウェアのオープンソース版クローン(GFS, MapReduce)
•Apacheプロジェクト(http://hadoop.apache.org/)
Yahoo Research のDoug Cutting 氏(現Cloudera社)がJavaで開発
『扱うデータがビッグ(大容量・多件数)であるために、従来のITアーキ
テクチャでは難しかった、もしくは超高コストでしか実現できなかった
データ活用が可能となる』
Dougさんのお子さんの
お気に入りだったぬいぐるみ

6
分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの高スループット化など多数データの処理にも向いている
データを蓄積、変換するといった使い方でコストパフォーマンスが高い
秒
分
時間
日
Hadoopの特長
レイテンシ
バッチ処理
リアルタイム処理
データサイズ
少ない
多い
オンライン処理
汎用検索
ＧＢ（ギガバイト）
ＴＢ（テラバイト）
ＰＢ（ペタバイト）
ＴＢ（テラバイト）
大容量データ処理
オンバッチ処理
純バッチ処理
Hadoop
適応領域
RDBMS
適応領域
多件数データ処理
既存処理の高速化
ログ蓄積・分析
全データを走査し、加工、転記するようなバッチ処理
機械学習
レコメンデーション
ロングテールのデータ分析

Copyright © 2014 NTT DATA Corporation 7
HadoopマスタノードHadoopスレーブノード
Hadoopクラスタの概要
 集中管理型の分散システム
• 分散処理ジョブやデータ情報の管理はマスタノードの役割
• 分散処理の実行やデータ実体の保存はスレーブノードの役割
 スレーブノードを増やすことで、全体の処理性能・容量を向上させる
スケールアウトアーキテクチャ
ResourceManager NodeManager NodeManager NodeManager
分散処理フレームワークYARN
(Yet Another Resource Negotiator)
NameNode DataNode DataNode DataNode
Hadoop分散ファイルシステム
(HDFS)

8
Hadoop2系で導入されたフレームワーク
1系のJobTrackerの役割を分割
クラスタ全体のリソース管理: YARN ResourceManager
タスクスケジューリング: MapReduceApplicationMaster
メリット
複数の分散処理系を、同一クラスタ上で動かせる
YARN (Yet Another Resource Negotiator)
HDFS
MapReduce
HDFS
Map
Reduce
YARN
Spark
Impala
Hadoop1系
Hadoop2系

9
Hadoop最新機能

10
2013/11に、Hadoop 2.2(GA)がリリース
YARN
HDFS High-Availability
HDFS Snapshot
HDFS NFSv3 mount
それ以降も、年に3～4回のリリースが続く
ただし、1系のリリースはない
現在の主流は、Hadoop 2系

11
2.2のリリースからおよそ1年経過して、数多くの機能が追加された
2.3 (2014/2 リリース)
HDFS in-memory caching
-DataNodeの共有メモリにデータを保持して、ディスクからの読み込みを避ける(zero-copy read)
Heterogeneous Storage (Phase 1)
-DataNodeのディスクのラベル分け(HDD, SSD, ...)
2.4 (2014/4リリース)
Application Timeline Server
-ジョブの履歴を見るにはApplication(MapReduce, Spark, ...)ごとにHistoryServerが必要だった
-Applicationに依存しない仕組みをTimeline Serverで提供
HDFS POSIX ACLs
Resource Manager Restart (Phase 1)
-ResourceManagerの自動フェールオーバー
-フェールオーバーすると、NodeManager上の処理は再実行される
HDFS Rolling Upgrades
-順番にノードを再起動することで、クラスタを停止させずにアップグレード可能
-2.4以降"から"のアップグレードで適用可
進化を続けるHadoop

12
2.5 (2014/8 リリース)
Extended Attributes
-ext4, xfsなどのファイルシステムにある拡張属性と同等のものを、HDFSに実装
-DataNode側のファイルシステムには依存しない
2.6 (10月末から11月頭にリリース予定)
HDFS Transparent Encryption
-ファイルを暗号化してDataNodeのディスクに書き込む
Heterogeneous Storage (Phase 2)
-データの種類ごとにレプリカを置くディスクの種類を変更
-Hot DataはSSDに、Cold DataはHDDに
Resource Manager Restart (Phase 2)
-Resource Managerがフェールオーバーしても、NodeManager上の処理は継続
2.6の主要機能である暗号化について、次ページ以降で詳しく紹介
進化を続けるHadoop

13
背景
HDFSに暗号化の機能は存在しなかった
-ファイルはDataNodeのディスクからそのまま読めてしまう
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離することで担保されていた
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求を満たせない
要求
上位のアプリケーションに対して変更がない
暗号/復号が高速
seek、appendに対応
HDFS Transparent Encryption

14
暗号化前後で、ファイルサイズに変更がない
上位のアプリケーションに影響しない
暗号/復号が並列化可能
ランダムアクセスが可能
暗号化にはAES-CTRを利用
KeyとNonce(IV)で、
暗号/復号方法が
一意に定まる

15
AES-CTRで使われる用語
Key
暗号/復号に必要な鍵
秘密にしておくもの
Hadoopでは、XAttrs(拡張属性)に暗号化した状態で保存
-Hadoop 2.5で追加された機能
Keyの暗号/復号鍵はKMS(Key Management Server)で管理
Nonce
暗号/復号のための初期値
必ずしも秘密にする必要はないが、万が一Keyが漏れた場合に備えてファイルごとに変えておくべき値
XAttrs(拡張属性)に保存
KeyとNonce

16
ファイルを暗号化して書き込む流れ(概略図)
Client
DataNode
NameNode
KMS
7. Keyの復号鍵を
送付
1. ファイルの暗号化要求
3. NameNodeに暗号化したKeyとNonceを送付
9. 暗号化したファイルを
書き込む
8. 復号したKeyで、
ファイルを暗号化
2. KMSにKeyの生成および暗号化を依頼
4. 暗号化された
KeyとNonceを保存
5. 暗号化されたKeyとNonce、
データを書き込むDataNodeの位置を送付
要求
Clientに対する
認証サーバの役割をもつ
(Kerberosにも対応)

17
暗号化されたファイルを読み込む流れ(概略図)
NameNode
DataNode
Client
KMS
要求
送付
1. ファイルの読み込み要求
2. 暗号化されたKeyとNonce、
データを保持するDataNodeの位置を送付
6. 暗号化されたファイルの
読み込み要求
ファイルを送付
5. Keyを復号
ファイルを復号
これら一連の処理は、DFSClientで実装されている
アプリケーション側で意識する必要はない

18
2.7も、近いうちにリリースされる
2.6の直後にリリース
機能追加ではなく、JDK6サポートを打ち切るための例外的なリリース
2.7以降では、JDK7のAPIを使った開発ができる
Multiple Catch Block
try-with-resources Statement
関連ライブラリのバージョンアップ(Tomcat, Google Guava, Jetty, ...)
JDK8で動作させるための取り組みも継続
コミュニティでも、JDK7のEOL(2015/3)は気にしている
ただし、lambdaなど、JDK8で追加されたAPIはまだ使えない
今後の追加機能(予定)
YARN Rolling Upgrades
Dynamic resource configuration
Dockercontainers in YARN
などなど
今後の開発予定

19
NTTデータのHadoopコミュニティに対する取り組み

20
Hadoopを多数運用してきたことで得られた知見をもとに、改善提案をコミュニティにフィードバックしています
運用上特に問題となるバグの改修
利用者向けのドキュメントの拡充
運用、トラブルシュートを便利にする機能の開発
-OfflineImageViewervia the WebHDFSAPI
-HDFS Tracing
コミッタ輩出も目指しています
日経コンピュータの記事を参照 http://itpro.nikkeibp.co.jp/atclact/active/14/092400070/
活動状況
-2013年: 解決issue件数世界6位、コード変更行数世界9位
-2014年1月～9月:解決issue件数世界4位、コード変更行数世界4位
コミュニティへの貢献

21
OIV: HDFSのメタ情報(fsimage)を見るためのツール
2.4までは、全情報をdumpすることしかできなかった
-Namespaceが巨大な場合、出力結果も膨大に
-特定の情報だけ見たい場合に不便
取り組み: jhatに似たオプションを追加
Webサーバを起動し、WebHDFSAPI(REST)経由でアクセス
特定のディレクトリの情報だけ出力することが可能
Hadoop 2.5 (最新リリース) から利用可能
OfflineImageViewer(OIV) via WebHDFSAPI

22

23
今後の取り組み
HDFS版findコマンドとの組み合わせで、メタ情報の検索を可能に
メイン部分はレビューが完了
追加オプションの開発、レビューを続けて行く

24
HTrace: 分散システム向けプロファイリングツール
Google Dapperのオープンソース実装
RPC層に、トレースするための情報を埋め込む
すでにHBaseでは採用されている
取り組み: Hadoopからも、HTraceを利用可能に
専用のViewerを使うことで、NameNodeとDataNodeのどの処理でどれだけ時間がかかっているのか一目でわかる
ボトルネックの解析、性能チューニングがしやすい
Hadoop 2.6(次のリリース)から利用可能
HDFS Tracing

25
HDFS Tracing

26
今後の取り組み
利便性の向上
より詳細な情報取得
YARN対応
HDFS Tracing

27
Hadoopは1台のマシンで扱えない規模の大量データを高速に処理するためのフレームワークです
数台から始めて、数千台(データ量にして数十PB)までスケールアウトします
Hadoopの開発の勢いは今も活発です
性能面、運用面で便利な機能がどんどん追加されています
NTTデータも、Hadoopの開発に参戦しています
バグフィックスや、運用を便利にするための機能開発に取り組んでいます
コミッタ輩出、さらなる開発力の向上を目指しています
また、Hadoopだけではなく、Spark、Stormなどの分散処理フレームワークにも取り組んでいます
互いの長所を活かし、組み合わせることが重要だと考えています
まとめ

28
NTTデータはこれまでに数台～千台規模のサーバによるHadoopシステムを構築・運用してきた実績を有しており、業務システムや社会基盤システムとしてHadoopを活用するノウハウを保持しています。
単純なHadoop環境の構築だけでなく、お客様のデータを活用し新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、システム構築、運用設計、導入後のサポートまで幅広く対応します。
おわりに: NTTデータのHadoop関連サービスメニュー
企画
設計～試験
移行
運用
Hadoop・分散処理
コンサルティング
サービス
Hadoop
分散処理環境
構築サービス
Hadoop・分散処理
評価支援サービス
Hadoopトレーニング
Hadoop
サポートサービス

Copyright © 2014NTT DATA Corporation
お問い合わせ先：
株式会社ＮＴＴデータ基盤システム事業本部 OSSプロフェッショナルサービス
URL: http：//oss.nttdata.co.jp/hadoop
メール：hadoop@kits.nttdata.co.jpTEL：050-5546-2496

分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

More Related Content

What's hot

Viewers also liked

Similar to 分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

More from NTT DATA OSS Professional Services

Recently uploaded

分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み