Fringe81社長日記Fringe81 CEO's Blog

EMRブートキャンプ!~最速分析システムを目指して~(1)

●はじめに


お久しぶりです、技術の東山です。

 

ブートキャンプと聞くと、MacでWindows?ビリー?
と思い浮かべる方が多いのではないのでしょうか??
残念ながら、どちらも違います!!

今回は弊社のログ集計のためにこの3月に導入したばかりの、
EMR(Amazon Elastic MapReduce)が、AWSの本丸でブートキャンプやってる!
と聞いて、弊社の優秀なAWSエンジニアの三ッ橋くんを引き連れて参加してきましたので、
その内容といろいろ聞いたお得な情報を書いてみたいと思います。

 

EMRとは簡単にいうとAWSのサービスの一つで、Hadoopフレームワーク
を中心にしたビッグデータの解析に特化したウェブクラウドサービスです。
これに対抗して、自前でHadoopクラスタを組んで運用しているケースを
「オンプレミス」と呼ばれています。

 

弊社も2010年の秋ごろにオンプレでHadoop導入/運用し、
1年ちょっと利用してきました。

しかし半年前くらいから、以下のような課題が浮き彫りになり、
キャパシティプランニングも考えるとこれら解決するのは、
EMRしかない!というきっかけで導入を決定しました。

 

【内部的な課題】

  • 途中でディスクをテラバイト単位で追加
  • ラックが手狭になる
  • 結局メチャクチャ使っているのは月の前半だけ

【外部的な課題】

  • もっと早くレポートが出来上がらないか?
  • クライアント3倍になったらどうするの?

 

【導入理由】

  • 時間をコストで買える
  • その分、インフラコストや運用コストは下がる
  • サーバをある程度自由に増やせるため上限が無いに等しい

 

 

●ブートキャンプ内容

前置きが長くなりましたが、2日間参加して、けっこう詰め込み教育な
感じでやってまいりました。
全てが完璧!という訳ではございませんが、内容は以下な感じで。

 

■Day1:2012/03/07(水) 09:30 – 17:00

  • ElasticMapReduce概要
  • EMR vs オンプレミスHadoop
  • EMRコストの最適化
  • いろいろハンズオン

 

■Day2:2012/03/08(木) 09:30 – 17:30

  • EMRアーキテクチャ
  • EMRプログラミングモデル
  • EMRとVPC
  • EMRとDynamoDB
  • EMRエコシステム
  • いろいろハンズオン

 

特に、2日目はこの3/1から東京リージョンにローンチされた
Amazon DynamoDB」との連携のハンズオンでマニュアル通り
いかなかったり、そのためUSリージョンしながらも、頭フル回転な8時間でした。

今日の投稿はインデックスな感じで、後日上記内容をかいつまんで、
書いていこうと思います。

 

●すこしだけ…


アップカミングな機能を聞いたので、少しだけ書きます。

※資料はまだ非公開だけど発信してもいいよと確認はしました。

 

・バックアップ/リストアHDFS from S3

・HBaseが利用可能に

・ハイスペックストレージインスタンス

・スケジュールリピートワークフロー

 

未だありましたが、このくらいで。
あとは知ってる人はもうしてっる小ネタで。

 

・最近発表されましたが、価格帯が平均10%近く安くなってます。

・リージョンは全世界で8カ所

・ファイル転送プロトコルの「Tunami」  で東京-シンガポール間だと50Mbpsは出るらしい。

・スポットをうまく使うとコスト半減しますよ!

・hadoopログは64MB(ブロックサイズ)がベストプラクティス

・hadoopパフォーマンスは256MB以上が理想

・1ファイル5TBが制限

 

●後記


いろんな意味で禁欲な2日間でした。。。

次回以降には、AWSエンジニアの実践的な話も登場する予定です!

お楽しみに!!

 

Author : yuzuru