KEMBAR78
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み | PDF
1 
Copyright © 2014 NTT DATA Corporation 
(株) NTTデータ基盤システム事業本部 
鯵坂明 
2014/10/18 OSC 2014 Tokyo/Fall 
分散処理基盤Apache Hadoopの現状と、 
NTTデータのHadoopに対する取り組み
2 
Copyright © 2014 NTT DATA Corporation 
NTTデータOSSプロフェッショナルサービス 
Hadoop関連のR&Dやシステム開発に従事 
約1年前からHadoop本体の開発に参加 
ドキュメント 
バグフィックス 
運用強化 
などなど 
自己紹介:鯵坂明(あじさかあきら)
3 
Copyright © 2014 NTT DATA Corporation 
Hadoop概要 
Hadoop最新機能 
NTTデータのHadoopコミュニティに対する 取り組み 
アジェンダ
Copyright © 2014 NTT DATA Corporation 
4 
Hadoop概要
5 
Copyright © 2014 NTT DATA Corporation 
Hadoopとは? 
オープンソースの大規模分散処理フレームワーク 
•Googleの基盤ソフトウェアのオープンソース版クローン(GFS, MapReduce) 
•Apacheプロジェクト(http://hadoop.apache.org/) 
Yahoo Research のDoug Cutting 氏(現Cloudera社)がJavaで開発 
『扱うデータがビッグ(大容量・多件数)であるために、従来のITアーキ 
テクチャでは難しかった、もしくは超高コストでしか実現できなかった 
データ活用が可能となる』 
Dougさんのお子さんの 
お気に入りだったぬいぐるみ
6 
Copyright © 2014 NTT DATA Corporation 
分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの 高スループット化など多数データの処理にも向いている 
データを蓄積、変換するといった使い方でコストパフォーマンスが高い 
秒 
分 
時間 
日 
Hadoopの特長 
レイテンシ 
バッチ処理 
リアルタイム処理 
データサイズ 
少ない 
多い 
オンライン処理 
汎用検索 
GB(ギガバイト) 
TB(テラバイト) 
PB(ペタバイト) 
TB(テラバイト) 
大容量データ処理 
オンバッチ処理 
純バッチ処理 
Hadoop 
適応領域 
RDBMS 
適応領域 
多件数データ処理 
既存処理の高速化 
ログ蓄積・分析 
全データを走査し、加工、転 記するようなバッチ処理 
機械学習 
レコメンデーション 
ロングテールのデータ分析
Copyright © 2014 NTT DATA Corporation 7 
HadoopマスタノードHadoopスレーブノード 
Hadoopクラスタの概要 
 集中管理型の分散システム 
• 分散処理ジョブやデータ情報の管理はマスタノードの役割 
• 分散処理の実行やデータ実体の保存はスレーブノードの役割 
 スレーブノードを増やすことで、全体の処理性能・容量を向上させる 
スケールアウトアーキテクチャ 
ResourceManager NodeManager NodeManager NodeManager 
分散処理フレームワークYARN 
(Yet Another Resource Negotiator) 
NameNode DataNode DataNode DataNode 
Hadoop分散ファイルシステム 
(HDFS)
8 
Copyright © 2014 NTT DATA Corporation 
Hadoop2系で導入されたフレームワーク 
1系のJobTrackerの役割を分割 
クラスタ全体のリソース管理: YARN ResourceManager 
タスクスケジューリング: MapReduceApplicationMaster 
メリット 
複数の分散処理系を、同一クラスタ上で動かせる 
YARN (Yet Another Resource Negotiator) 
HDFS 
MapReduce 
HDFS 
Map 
Reduce 
YARN 
Spark 
Impala 
Hadoop1系 
Hadoop2系
Copyright © 2014 NTT DATA Corporation 
9 
Hadoop最新機能
10 
Copyright © 2014 NTT DATA Corporation 
2013/11に、Hadoop 2.2(GA)がリリース 
YARN 
HDFS High-Availability 
HDFS Snapshot 
HDFS NFSv3 mount 
それ以降も、年に3~4回のリリースが続く 
ただし、1系のリリースはない 
現在の主流は、Hadoop 2系
11 
Copyright © 2014 NTT DATA Corporation 
2.2のリリースからおよそ1年経過して、数多くの機能が追加された 
2.3 (2014/2 リリース) 
HDFS in-memory caching 
-DataNodeの共有メモリにデータを保持して、ディスクからの読み込みを避ける(zero-copy read) 
Heterogeneous Storage (Phase 1) 
-DataNodeのディスクのラベル分け(HDD, SSD, ...) 
2.4 (2014/4リリース) 
Application Timeline Server 
-ジョブの履歴を見るにはApplication(MapReduce, Spark, ...)ごとにHistoryServerが必要だった 
-Applicationに依存しない仕組みをTimeline Serverで提供 
HDFS POSIX ACLs 
Resource Manager Restart (Phase 1) 
-ResourceManagerの自動フェールオーバー 
-フェールオーバーすると、NodeManager上の処理は再実行される 
HDFS Rolling Upgrades 
-順番にノードを再起動することで、クラスタを停止させずにアップグレード可能 
-2.4以降"から"のアップグレードで適用可 
進化を続けるHadoop
12 
Copyright © 2014 NTT DATA Corporation 
2.5 (2014/8 リリース) 
Extended Attributes 
-ext4, xfsなどのファイルシステムにある拡張属性と同等のものを、HDFSに実装 
-DataNode側のファイルシステムには依存しない 
2.6 (10月末から11月頭にリリース予定) 
HDFS Transparent Encryption 
-ファイルを暗号化してDataNodeのディスクに書き込む 
Heterogeneous Storage (Phase 2) 
-データの種類ごとにレプリカを置くディスクの種類を変更 
-Hot DataはSSDに、Cold DataはHDDに 
Resource Manager Restart (Phase 2) 
-Resource Managerがフェールオーバーしても、NodeManager上の処理は継続 
2.6の主要機能である暗号化について、次ページ以降で詳しく紹介 
進化を続けるHadoop
13 
Copyright © 2014 NTT DATA Corporation 
背景 
HDFSに暗号化の機能は存在しなかった 
-ファイルはDataNodeのディスクからそのまま読めてしまう 
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離 することで担保されていた 
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求 を満たせない 
要求 
上位のアプリケーションに対して変更がない 
暗号/復号が高速 
seek、appendに対応 
HDFS Transparent Encryption
14 
Copyright © 2014 NTT DATA Corporation 
暗号化前後で、ファイルサイズに変更がない 
上位のアプリケーションに影響しない 
暗号/復号が並列化可能 
ランダムアクセスが可能 
暗号化にはAES-CTRを利用 
KeyとNonce(IV)で、 
暗号/復号方法が 
一意に定まる
15 
Copyright © 2014 NTT DATA Corporation 
AES-CTRで使われる用語 
Key 
暗号/復号に必要な鍵 
秘密にしておくもの 
Hadoopでは、XAttrs(拡張属性)に暗号化した状態で保存 
-Hadoop 2.5で追加された機能 
Keyの暗号/復号鍵はKMS(Key Management Server)で管理 
Nonce 
暗号/復号のための初期値 
必ずしも秘密にする必要はないが、万が一Keyが漏れた場合に 備えてファイルごとに変えておくべき値 
XAttrs(拡張属性)に保存 
KeyとNonce
16 
Copyright © 2014 NTT DATA Corporation 
ファイルを暗号化して書き込む流れ(概略図) 
Client 
DataNode 
NameNode 
KMS 
7. Keyの復号鍵を 
送付 
1. ファイルの暗号化要求 
3. NameNodeに暗号化したKeyとNonceを送付 
9. 暗号化したファイルを 
書き込む 
8. 復号したKeyで、 
ファイルを暗号化 
2. KMSにKeyの生成および暗号化を依頼 
4. 暗号化された 
KeyとNonceを保存 
5. 暗号化されたKeyとNonce、 
データを書き込むDataNodeの位置を送付 
6. Keyの復号鍵を 
要求 
Clientに対する 
認証サーバの役割をもつ 
(Kerberosにも対応)
17 
Copyright © 2014 NTT DATA Corporation 
暗号化されたファイルを読み込む流れ(概略図) 
NameNode 
DataNode 
Client 
KMS 
3. Keyの復号鍵を 
要求 
4. Keyの復号鍵を 
送付 
1. ファイルの読み込み要求 
2. 暗号化されたKeyとNonce、 
データを保持するDataNodeの位置を送付 
6. 暗号化されたファイルの 
読み込み要求 
7. 暗号化された 
ファイルを送付 
5. Keyを復号 
8. 暗号化された 
ファイルを復号 
これら一連の処理は、DFSClientで実装されている 
アプリケーション側で意識する必要はない
18 
Copyright © 2014 NTT DATA Corporation 
2.7も、近いうちにリリースされる 
2.6の直後にリリース 
機能追加ではなく、JDK6サポートを打ち切るための例外的なリリース 
2.7以降では、JDK7のAPIを使った開発ができる 
Multiple Catch Block 
try-with-resources Statement 
関連ライブラリのバージョンアップ(Tomcat, Google Guava, Jetty, ...) 
JDK8で動作させるための取り組みも継続 
コミュニティでも、JDK7のEOL(2015/3)は気にしている 
ただし、lambdaなど、JDK8で追加されたAPIはまだ使えない 
今後の追加機能(予定) 
YARN Rolling Upgrades 
Dynamic resource configuration 
Dockercontainers in YARN 
などなど 
今後の開発予定
Copyright © 2014 NTT DATA Corporation 
19 
NTTデータのHadoopコミュニティに対する取り組み
20 
Copyright © 2014 NTT DATA Corporation 
Hadoopを多数運用してきたことで得られた知見をもとに、 改善提案をコミュニティにフィードバックしています 
運用上特に問題となるバグの改修 
利用者向けのドキュメントの拡充 
運用、トラブルシュートを便利にする機能の開発 
-OfflineImageViewervia the WebHDFSAPI 
-HDFS Tracing 
コミッタ輩出も目指しています 
日経コンピュータの記事を参照 http://itpro.nikkeibp.co.jp/atclact/active/14/092400070/ 
活動状況 
-2013年: 解決issue件数世界6位、コード変更行数世界9位 
-2014年1月~9月:解決issue件数世界4位、コード変更行数世界4位 
コミュニティへの貢献
21 
Copyright © 2014 NTT DATA Corporation 
OIV: HDFSのメタ情報(fsimage)を見るためのツール 
2.4までは、全情報をdumpすることしかできなかった 
-Namespaceが巨大な場合、出力結果も膨大に 
-特定の情報だけ見たい場合に不便 
取り組み: jhatに似たオプションを追加 
Webサーバを起動し、WebHDFSAPI(REST)経由でアクセス 
特定のディレクトリの情報だけ出力することが可能 
Hadoop 2.5 (最新リリース) から利用可能 
OfflineImageViewer(OIV) via WebHDFSAPI
22 
Copyright © 2014 NTT DATA Corporation 
OfflineImageViewer(OIV) via WebHDFSAPI
23 
Copyright © 2014 NTT DATA Corporation 
今後の取り組み 
HDFS版findコマンドとの組み合わせで、メタ情報の検索を 可能に 
メイン部分はレビューが完了 
追加オプションの開発、レビューを続けて行く 
OfflineImageViewer(OIV) via WebHDFSAPI
24 
Copyright © 2014 NTT DATA Corporation 
HTrace: 分散システム向けプロファイリングツール 
Google Dapperのオープンソース実装 
RPC層に、トレースするための情報を埋め込む 
すでにHBaseでは採用されている 
取り組み: Hadoopからも、HTraceを利用可能に 
専用のViewerを使うことで、NameNodeとDataNodeのどの 処理でどれだけ時間がかかっているのか一目でわかる 
ボトルネックの解析、性能チューニングがしやすい 
Hadoop 2.6(次のリリース)から利用可能 
HDFS Tracing
25 
Copyright © 2014 NTT DATA Corporation 
HDFS Tracing
26 
Copyright © 2014 NTT DATA Corporation 
今後の取り組み 
利便性の向上 
より詳細な情報取得 
YARN対応 
HDFS Tracing
27 
Copyright © 2014 NTT DATA Corporation 
Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する ためのフレームワークです 
数台から始めて、数千台(データ量にして数十PB)までスケールアウトします 
Hadoopの開発の勢いは今も活発です 
性能面、運用面で便利な機能がどんどん追加されています 
NTTデータも、Hadoopの開発に参戦しています 
バグフィックスや、運用を便利にするための機能開発に取り組んでいます 
コミッタ輩出、さらなる開発力の向上を目指しています 
また、Hadoopだけではなく、Spark、Stormなどの分散処理フレーム ワークにも取り組んでいます 
互いの長所を活かし、組み合わせることが重要だと考えています 
まとめ
28 
Copyright © 2014 NTT DATA Corporation 
NTTデータはこれまでに数台~千台規模のサーバによるHadoopシステムを構築・運 用してきた実績を有しており、業務システムや社会基盤システムとしてHadoopを活用す るノウハウを保持しています。 
単純なHadoop環境の構築だけでなく、お客様のデータを活用し新しいビジネス機会 を生み出すシステムの実現のためのコンサルティング、システム構築、運用設計、導入 後のサポートまで幅広く対応します。 
おわりに: NTTデータのHadoop関連サービスメニュー 
企画 
設計~試験 
移行 
運用 
Hadoop・分散処理 
コンサルティング 
サービス 
Hadoop 
分散処理環境 
構築サービス 
Hadoop・分散処理 
評価支援サービス 
Hadoopトレーニング 
Hadoop 
サポートサービス
Copyright © 2011 NTT DATA Corporation 
Copyright © 2014NTT DATA Corporation 
お問い合わせ先: 
株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス 
URL: http://oss.nttdata.co.jp/hadoop 
メール:hadoop@kits.nttdata.co.jpTEL:050-5546-2496

分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み

  • 1.
    1 Copyright ©2014 NTT DATA Corporation (株) NTTデータ基盤システム事業本部 鯵坂明 2014/10/18 OSC 2014 Tokyo/Fall 分散処理基盤Apache Hadoopの現状と、 NTTデータのHadoopに対する取り組み
  • 2.
    2 Copyright ©2014 NTT DATA Corporation NTTデータOSSプロフェッショナルサービス Hadoop関連のR&Dやシステム開発に従事 約1年前からHadoop本体の開発に参加 ドキュメント バグフィックス 運用強化 などなど 自己紹介:鯵坂明(あじさかあきら)
  • 3.
    3 Copyright ©2014 NTT DATA Corporation Hadoop概要 Hadoop最新機能 NTTデータのHadoopコミュニティに対する 取り組み アジェンダ
  • 4.
    Copyright © 2014NTT DATA Corporation 4 Hadoop概要
  • 5.
    5 Copyright ©2014 NTT DATA Corporation Hadoopとは? オープンソースの大規模分散処理フレームワーク •Googleの基盤ソフトウェアのオープンソース版クローン(GFS, MapReduce) •Apacheプロジェクト(http://hadoop.apache.org/) Yahoo Research のDoug Cutting 氏(現Cloudera社)がJavaで開発 『扱うデータがビッグ(大容量・多件数)であるために、従来のITアーキ テクチャでは難しかった、もしくは超高コストでしか実現できなかった データ活用が可能となる』 Dougさんのお子さんの お気に入りだったぬいぐるみ
  • 6.
    6 Copyright ©2014 NTT DATA Corporation 分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの 高スループット化など多数データの処理にも向いている データを蓄積、変換するといった使い方でコストパフォーマンスが高い 秒 分 時間 日 Hadoopの特長 レイテンシ バッチ処理 リアルタイム処理 データサイズ 少ない 多い オンライン処理 汎用検索 GB(ギガバイト) TB(テラバイト) PB(ペタバイト) TB(テラバイト) 大容量データ処理 オンバッチ処理 純バッチ処理 Hadoop 適応領域 RDBMS 適応領域 多件数データ処理 既存処理の高速化 ログ蓄積・分析 全データを走査し、加工、転 記するようなバッチ処理 機械学習 レコメンデーション ロングテールのデータ分析
  • 7.
    Copyright © 2014NTT DATA Corporation 7 HadoopマスタノードHadoopスレーブノード Hadoopクラスタの概要  集中管理型の分散システム • 分散処理ジョブやデータ情報の管理はマスタノードの役割 • 分散処理の実行やデータ実体の保存はスレーブノードの役割  スレーブノードを増やすことで、全体の処理性能・容量を向上させる スケールアウトアーキテクチャ ResourceManager NodeManager NodeManager NodeManager 分散処理フレームワークYARN (Yet Another Resource Negotiator) NameNode DataNode DataNode DataNode Hadoop分散ファイルシステム (HDFS)
  • 8.
    8 Copyright ©2014 NTT DATA Corporation Hadoop2系で導入されたフレームワーク 1系のJobTrackerの役割を分割 クラスタ全体のリソース管理: YARN ResourceManager タスクスケジューリング: MapReduceApplicationMaster メリット 複数の分散処理系を、同一クラスタ上で動かせる YARN (Yet Another Resource Negotiator) HDFS MapReduce HDFS Map Reduce YARN Spark Impala Hadoop1系 Hadoop2系
  • 9.
    Copyright © 2014NTT DATA Corporation 9 Hadoop最新機能
  • 10.
    10 Copyright ©2014 NTT DATA Corporation 2013/11に、Hadoop 2.2(GA)がリリース YARN HDFS High-Availability HDFS Snapshot HDFS NFSv3 mount それ以降も、年に3~4回のリリースが続く ただし、1系のリリースはない 現在の主流は、Hadoop 2系
  • 11.
    11 Copyright ©2014 NTT DATA Corporation 2.2のリリースからおよそ1年経過して、数多くの機能が追加された 2.3 (2014/2 リリース) HDFS in-memory caching -DataNodeの共有メモリにデータを保持して、ディスクからの読み込みを避ける(zero-copy read) Heterogeneous Storage (Phase 1) -DataNodeのディスクのラベル分け(HDD, SSD, ...) 2.4 (2014/4リリース) Application Timeline Server -ジョブの履歴を見るにはApplication(MapReduce, Spark, ...)ごとにHistoryServerが必要だった -Applicationに依存しない仕組みをTimeline Serverで提供 HDFS POSIX ACLs Resource Manager Restart (Phase 1) -ResourceManagerの自動フェールオーバー -フェールオーバーすると、NodeManager上の処理は再実行される HDFS Rolling Upgrades -順番にノードを再起動することで、クラスタを停止させずにアップグレード可能 -2.4以降"から"のアップグレードで適用可 進化を続けるHadoop
  • 12.
    12 Copyright ©2014 NTT DATA Corporation 2.5 (2014/8 リリース) Extended Attributes -ext4, xfsなどのファイルシステムにある拡張属性と同等のものを、HDFSに実装 -DataNode側のファイルシステムには依存しない 2.6 (10月末から11月頭にリリース予定) HDFS Transparent Encryption -ファイルを暗号化してDataNodeのディスクに書き込む Heterogeneous Storage (Phase 2) -データの種類ごとにレプリカを置くディスクの種類を変更 -Hot DataはSSDに、Cold DataはHDDに Resource Manager Restart (Phase 2) -Resource Managerがフェールオーバーしても、NodeManager上の処理は継続 2.6の主要機能である暗号化について、次ページ以降で詳しく紹介 進化を続けるHadoop
  • 13.
    13 Copyright ©2014 NTT DATA Corporation 背景 HDFSに暗号化の機能は存在しなかった -ファイルはDataNodeのディスクからそのまま読めてしまう もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離 することで担保されていた だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求 を満たせない 要求 上位のアプリケーションに対して変更がない 暗号/復号が高速 seek、appendに対応 HDFS Transparent Encryption
  • 14.
    14 Copyright ©2014 NTT DATA Corporation 暗号化前後で、ファイルサイズに変更がない 上位のアプリケーションに影響しない 暗号/復号が並列化可能 ランダムアクセスが可能 暗号化にはAES-CTRを利用 KeyとNonce(IV)で、 暗号/復号方法が 一意に定まる
  • 15.
    15 Copyright ©2014 NTT DATA Corporation AES-CTRで使われる用語 Key 暗号/復号に必要な鍵 秘密にしておくもの Hadoopでは、XAttrs(拡張属性)に暗号化した状態で保存 -Hadoop 2.5で追加された機能 Keyの暗号/復号鍵はKMS(Key Management Server)で管理 Nonce 暗号/復号のための初期値 必ずしも秘密にする必要はないが、万が一Keyが漏れた場合に 備えてファイルごとに変えておくべき値 XAttrs(拡張属性)に保存 KeyとNonce
  • 16.
    16 Copyright ©2014 NTT DATA Corporation ファイルを暗号化して書き込む流れ(概略図) Client DataNode NameNode KMS 7. Keyの復号鍵を 送付 1. ファイルの暗号化要求 3. NameNodeに暗号化したKeyとNonceを送付 9. 暗号化したファイルを 書き込む 8. 復号したKeyで、 ファイルを暗号化 2. KMSにKeyの生成および暗号化を依頼 4. 暗号化された KeyとNonceを保存 5. 暗号化されたKeyとNonce、 データを書き込むDataNodeの位置を送付 6. Keyの復号鍵を 要求 Clientに対する 認証サーバの役割をもつ (Kerberosにも対応)
  • 17.
    17 Copyright ©2014 NTT DATA Corporation 暗号化されたファイルを読み込む流れ(概略図) NameNode DataNode Client KMS 3. Keyの復号鍵を 要求 4. Keyの復号鍵を 送付 1. ファイルの読み込み要求 2. 暗号化されたKeyとNonce、 データを保持するDataNodeの位置を送付 6. 暗号化されたファイルの 読み込み要求 7. 暗号化された ファイルを送付 5. Keyを復号 8. 暗号化された ファイルを復号 これら一連の処理は、DFSClientで実装されている アプリケーション側で意識する必要はない
  • 18.
    18 Copyright ©2014 NTT DATA Corporation 2.7も、近いうちにリリースされる 2.6の直後にリリース 機能追加ではなく、JDK6サポートを打ち切るための例外的なリリース 2.7以降では、JDK7のAPIを使った開発ができる Multiple Catch Block try-with-resources Statement 関連ライブラリのバージョンアップ(Tomcat, Google Guava, Jetty, ...) JDK8で動作させるための取り組みも継続 コミュニティでも、JDK7のEOL(2015/3)は気にしている ただし、lambdaなど、JDK8で追加されたAPIはまだ使えない 今後の追加機能(予定) YARN Rolling Upgrades Dynamic resource configuration Dockercontainers in YARN などなど 今後の開発予定
  • 19.
    Copyright © 2014NTT DATA Corporation 19 NTTデータのHadoopコミュニティに対する取り組み
  • 20.
    20 Copyright ©2014 NTT DATA Corporation Hadoopを多数運用してきたことで得られた知見をもとに、 改善提案をコミュニティにフィードバックしています 運用上特に問題となるバグの改修 利用者向けのドキュメントの拡充 運用、トラブルシュートを便利にする機能の開発 -OfflineImageViewervia the WebHDFSAPI -HDFS Tracing コミッタ輩出も目指しています 日経コンピュータの記事を参照 http://itpro.nikkeibp.co.jp/atclact/active/14/092400070/ 活動状況 -2013年: 解決issue件数世界6位、コード変更行数世界9位 -2014年1月~9月:解決issue件数世界4位、コード変更行数世界4位 コミュニティへの貢献
  • 21.
    21 Copyright ©2014 NTT DATA Corporation OIV: HDFSのメタ情報(fsimage)を見るためのツール 2.4までは、全情報をdumpすることしかできなかった -Namespaceが巨大な場合、出力結果も膨大に -特定の情報だけ見たい場合に不便 取り組み: jhatに似たオプションを追加 Webサーバを起動し、WebHDFSAPI(REST)経由でアクセス 特定のディレクトリの情報だけ出力することが可能 Hadoop 2.5 (最新リリース) から利用可能 OfflineImageViewer(OIV) via WebHDFSAPI
  • 22.
    22 Copyright ©2014 NTT DATA Corporation OfflineImageViewer(OIV) via WebHDFSAPI
  • 23.
    23 Copyright ©2014 NTT DATA Corporation 今後の取り組み HDFS版findコマンドとの組み合わせで、メタ情報の検索を 可能に メイン部分はレビューが完了 追加オプションの開発、レビューを続けて行く OfflineImageViewer(OIV) via WebHDFSAPI
  • 24.
    24 Copyright ©2014 NTT DATA Corporation HTrace: 分散システム向けプロファイリングツール Google Dapperのオープンソース実装 RPC層に、トレースするための情報を埋め込む すでにHBaseでは採用されている 取り組み: Hadoopからも、HTraceを利用可能に 専用のViewerを使うことで、NameNodeとDataNodeのどの 処理でどれだけ時間がかかっているのか一目でわかる ボトルネックの解析、性能チューニングがしやすい Hadoop 2.6(次のリリース)から利用可能 HDFS Tracing
  • 25.
    25 Copyright ©2014 NTT DATA Corporation HDFS Tracing
  • 26.
    26 Copyright ©2014 NTT DATA Corporation 今後の取り組み 利便性の向上 より詳細な情報取得 YARN対応 HDFS Tracing
  • 27.
    27 Copyright ©2014 NTT DATA Corporation Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する ためのフレームワークです 数台から始めて、数千台(データ量にして数十PB)までスケールアウトします Hadoopの開発の勢いは今も活発です 性能面、運用面で便利な機能がどんどん追加されています NTTデータも、Hadoopの開発に参戦しています バグフィックスや、運用を便利にするための機能開発に取り組んでいます コミッタ輩出、さらなる開発力の向上を目指しています また、Hadoopだけではなく、Spark、Stormなどの分散処理フレーム ワークにも取り組んでいます 互いの長所を活かし、組み合わせることが重要だと考えています まとめ
  • 28.
    28 Copyright ©2014 NTT DATA Corporation NTTデータはこれまでに数台~千台規模のサーバによるHadoopシステムを構築・運 用してきた実績を有しており、業務システムや社会基盤システムとしてHadoopを活用す るノウハウを保持しています。 単純なHadoop環境の構築だけでなく、お客様のデータを活用し新しいビジネス機会 を生み出すシステムの実現のためのコンサルティング、システム構築、運用設計、導入 後のサポートまで幅広く対応します。 おわりに: NTTデータのHadoop関連サービスメニュー 企画 設計~試験 移行 運用 Hadoop・分散処理 コンサルティング サービス Hadoop 分散処理環境 構築サービス Hadoop・分散処理 評価支援サービス Hadoopトレーニング Hadoop サポートサービス
  • 29.
    Copyright © 2011NTT DATA Corporation Copyright © 2014NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール:hadoop@kits.nttdata.co.jpTEL:050-5546-2496