Hadoopの紹介

Introduction to Hadoop Satoshi Yamada 2008/11/5

内容基本的に Hadoop の概観とイントロ性能に関わるようなテクニカルな詳細は省略

謝辞以下のホームページを参照＆資料を貸していただきました http://hadoop.apache.org http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html http://www.techcrunch.com/2008/01/09/google-processing-20000-terabytes-a-day-and-growing/ http://codezine.jp/article/detail/2448?p=1 http://www.slideshare.net/kakuda/hadoop/

outline what is Hadoop? Hadoop distributed file system Hadoop mapreduce Hadoop related modules how to use Hadoop

Hadoop とは Google の基盤プラットフォームのようなオープンソースインフラストラクチャ http://hadoop.apache.org

Hadoop の開発 Apache グループで開発 Yahoo! の Doug Cutting 氏らが開発

Hadoop の使用状況 Yahoo! 、 Facebook, Amazon.com, IBM の CC など Hadoop の mailing list では Lucene からの乗り換えなどを考えている人がいたというわけで流行っている

Yahoo! における使用状況 ( おそらく Hadoop を使用する最大規模のアプリケーション ) インデックス内にあるページ間リンク数 : 約 1 兆リンク出力サイズ : 300 TB 超（圧縮後で） MapReduce 処理で使うコアの数 : 1 万超製造クラスタで使うローディスク：　 5PB （約 5000 兆バイト）超従来の Yahoo! 環境での実行時間を 34% 削減 http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html

ちなみに・・・ Google のプラットフォームの状況 http://www.techcrunch.com/2008/01/09/google-processing-20000-terabytes-a-day-and-growing/

Hadoop の特徴的な機能 Hadoop Core HBase Pig ZooKeeper ( 赤字は最近追加された機能）

Hadoop Core Hadoop の機能的な特徴 Scalable 　　　ペタバイトクラスのデータを扱える Economical 　汎用プラットフォームによるクラスタにまたがって、データと実行を分散出来る。クラスタは数千オーダーでも対応可能 Efficient 　　　データを分散させることで、ノード間で並列に実行出来る。そのため、実行速度が速い Reliable 　　　自動的にデータを複数コピーし、失敗を契機にタスクの移動を行わせる

Hadoop Core Hadoop は Hadoop Distributed File System 　 (HDFS) を用いて実行を行う MapReduce は HDFS を用いて実装されている MapReduce ではアプリケーションをたくさんの小さなブロックに分割して実行 HDFS では信頼性を失わないために、複数のデータのレプリカを作成し、クラスタ内の各コンピュータに配置する

Hadoop Core Hadoop の概観公式サイトより

Hadoop Distributed File System HDFS の特徴フォールトトレラント性能が高く、安価なハードウェア上で実現出来るアプリケーションへの高速アクセスを提供し、巨大なデータセットを持つアプリケーションに適しているもともと A pache Nutch ウェブ検索エンジンプロジェクトのためのインフラ

HDFS が想定する問題とゴールその１ハードウェアの故障故障を検知し、迅速かつ自動的に回復するストリームデータアクセス Hadoop アプリケーションにとって必要のない POSIX 条件を排除することでスループットを向上させる Large Data Sets 大きなサイズのファイルをサポート

HDFS が想定する問題とゴールその２データの一貫性 write-once-read-many アクセスモデル MapReduce アプリケーションや web クロールアプリケーションに対応できるデータの移動のオーバヘッドデータでなくアプリケーションを移動させるポータビリティ様々なプラットフォームに対応基本的に Java が入っていれば動く (?)

HDFS が想定する問題とゴールその 3 マスタ／スレーブアーキテクチャ単一の Namenode と複数の Datanodes

HDFS が想定する問題とゴールその 4 The File System Namespace コンベンショナルな階層ファイル構造信頼性データを複製して、異なるノード間で保持ラックの認識した負荷分散が可能 Datanode は定期的に Namenode と通信を行い、安否を知らせる Namenode は Datanode の状況から、データの複製状況などを考慮などなど

データ構造データブロック 64MB staging クライアントは溜め込んだデータの情報をすぐに Namenodes に報告しないアクセシビリティ HTTP ブラウザからの HDFS インスタンスのファイルのブラウジングが可能

outline what is Hadoop? Hadoop distributed file system Hadoop mapreduce Hadoop Related modules how to use Hadoop

Google での MapReduce 利用例分散 Grep 分散ソート逆リンク解析アクセスログ解析検索インデックス構築文書クラスタ解析機械学習統計機械翻訳・・・ etc

Hadoop での MapReduce 概要 job からインプットデータを分割 task として m ap 関数が並列に処理アウトプットをソートし、 r educe task として r educe 関数が処理 H adoop のフレームワークはこれらの t ask をスケジュールし、モニタし、失敗した際には再実行させる（ Hadoop での呼び方を注意しておくとよいかも）

MapReduce 実行におけるマスタ／スレーブマスタ： JobTracker job を構成する t ask をスケジュールし、モニタし、失敗した場合に再実行する単一システムに１つだけ存在スレーブ :TaskTracker マスタの指示に従って t ask を処理複数存在

MapReduce のインタフェースインプットにもアウトプットにも < key, value> という形式を用いる map からの出力は reduce に入る前に、ローカル集約を受ける reduce では値を足し合わせるだけ map(), reduce() の実装のために、 Mapper, Reducer というインタフェースを持つ

実行例 wordcount プログラム入力ファイル file01 と file02 file01: Hello World Bye World file02: Hello Hadoop Goodbye Hadoop map 関数の適用 < Hello, 1>< World, 1>< Bye, 1>< World, 1> < Hello, 1>< Hadoop, 1>< Goodbye, 1>< Hadoop, 1> map からのローカル集約 (combiner) < Bye, 1>< Hello, 1>< World, 2> < Goodbye, 1>< Hadoop, 2>< Hello, 1> ソート＆集約 <Bye, 1><Goodby, 1><Hadoop, 2><Hello, 1, 1><World, 2> reduce からの出力 < Bye, 1>< Goodbye, 1>< Hadoop, 2>< Hello, 2>< World, 2>

Mapper key/value のインプットデータを k ey/value の中間データにマップ中間データはインプットデータと同じ型である必要はない Mapper の出力はソートされ、 R educer ごとに分割されるユーザは c ombiner をオプションで定義することで、中間出力値のローカルな集約を行うことが出来る

Reducer Reducer は k ey を共有する中間値のセットを r educe して v alue のセットを小さくする Reducer における３つのフェーズ shuffle HTTP 経由で、全ての m apper の出力の関連ある区分を取っていく sort key により、 R educer の入力値をグループ化する reduce グループ化された入力のそれぞれの < key, (list of values)> ペアごとに、 r educe が呼ばれる Reducer の出力はソートされていない

Hadoop に関連するその他のモジュール

hBase 大規模分散データベース google の BigTable のクローン http://codezine.jp/article/detail/2448?p=1

Pig 大規模データセットを解析するためのプラットフォーム Pig のインフラ層は（現段階では）大規模並列性が既に存在する MapReduce プログラムを生成するコンパイラ Pig の言語層は以下の特徴を持つ Pig Latin からなるプログラムの簡便化相互関係があるなどの、並列化が難しいタスクを簡単に書き、理解し、実行する最適化の機会自動的に実行を最適化する拡張性ユーザはある実行に特化した関数を書くことが出来る

ZooKeeper 並列アプリケーションを実装する段階でのデータの競合やデッドロックの発生を抑えるためのコーディネーションサービス Yahoo! Message Broker などのサービスで既に用いられている

How to use Hadoop Requirement セットアップサンプル実行コンパイル＆実行

Requirement サポート環境 L inux W in 32 ( 開発段階 ) （おそらく Solaris でも動く）必要なソフトウェア J ava 1.5 以上 (S un が望ましい ) s sh, sshd W indows ではさらに C ygwin が必要

Hadoop における実行モード Standalone Operation 単一ノードで動かす、デフォルトの設定 n on - 分散環境であり、単一の J ava プロセスデバッグ時に有用 P seudo-Distributed Operation 単一ノード上で動かすが、それぞれの H adoop が異なる J ava プロセスとして実装されている F ully-Distributed Operation 複数ノードで動かす

セットアップすべてのマシンが設定を格納したファイルを同じディレクトリ上に持つ JAVA_HOME の設定 hadoop-0.18.2/conf/hadoo-env.sh マスタの設定 hadoop-0.18.2/conf/masters hadoop-0.18.2/conf/hadoop-site.xml スレーブの設定 hadoop-0.18.2/conf/slaves ssh での鍵をマスタからスレーブに渡し、マスタから password なしでログインできるようにしておく

Hadoop StartUp 初期化 $ bin/hadoop namenode -format Hadoop の開始 $ bin/start-all.sh Hadoop の起動確認 [hadoop@master]$ jps 2475 SecondaryNameNode 2673 Jps 2573 JobTracker 2319 NameNode [hadoop@slave] $ jps 16149 Jps 16106 TaskTracker 16024 DataNode

これまでの失敗例 NameNode or DataNode が立ち上がらないプログラム実行時にエラーなど勉強会の時に惜しくも失敗原因として考えられること設定ミスファイルが壊れたその他バグ

Hadoop 使用時に注意すべき点実感した感じでは、まだまだ扱いづらい ( 当然だが ) ファイル、ポートの設定などきちんとバグもたくさんある、ようだ問題点が把握しづらい Hadoop メーリスでも同様のコメントが多いただし、プラットフォーム自体をいじるのでなければ、そこまで心配する必要はないかも

Hadoopの紹介

More Related Content

What's hot

Viewers also liked

Similar to Hadoopの紹介

Recently uploaded

Hadoopの紹介