気になるけど

PC関連情報、ビジネス書、IT資格などについて書いていきます。 ただいま不定期更新中です。

PREV | PAGE-SELECT | NEXT

≫ EDIT

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Twitterでつぶやく

| スポンサー広告 | --:-- | comments(-) | trackbacks(-) | TOP↑

≫ EDIT

個人でも膨大なデータの解析が行なえる時代

クックパッドのデータ処理、たった5万円
by 日経ビジネスオンライン

少し前の記事ですが、料理レシピの投稿・検索サイト「クックパッド」社の、クラウド使用例がとても参考になったので、そのうちブログで書こうと思っておりました。

私もしょっちゅう使用するクックパッドは、個々人が持つ料理レシピのデーターベースが売りの、月間ユニークユーザー数884万人、月間ページビュー数4億6000万という怪物サイトですが、これまでRuby On Railsで構築したという話くらいしか聞いたことが無かったので、上記の記事は巨大サイトを運営する企業の中身がうかがい知れて参考になりました。

なかでも、利用者が入力する検索キーワードは膨大なものとなり、そのログの1年分を解析するとか、システム管理に明るい人なら、途方に暮れてしまいそうなお話しです!

私も仕事柄、syslogをはじめWebのアクセスログ解析なども定期的に行なっておりますので、膨大なログの処理には常に頭を悩まされています・・・。

記事中では、

同社では、社内のデータベースサーバを利用して、この処理を実施した場合、7000時間はかかると見積もった。


とありますが、社内の限られたリソースを使用した場合は、確かにそのくらいの時間(7000時間=約291日)がかかるかもしれないという、そんなイメージが実感を伴って頭に浮かびました。実際7000時間くらいかけてログ解析をするかといえば恐らくやらないでしょうし、サーバ機器の故障や、OSのメモリやらキャッシュやらが溢れ過ぎて動かなくなるのが関の山でしょうね・・・。

そこでAmazonのEC2で仮想マシンを50台用意し、Googleも検索エンジンで使用しているHadoop(大規模分散計算フレームワーク)というフレームワークを使用することで、処理時間30時間、かかったコストは4万8000円という、なんとも驚きの結果が記事中で書かれています!

HadoopやGoogleの検索の仕組みについては、下記のサイト様で詳しく掲載されていますので、合わせてどうぞ。

Hadoop、hBaseで構築する大規模分散データ処理システム
by CodeZine

Google基盤ソフトウェアのオープンソースクローンを使ってみる(目次)
by CodeZine

クックパッドは、収益の50%を他者のマーケティング支援事業から得ているので、ログの細かく詳しい分析が必要なのは自明の理ですから、そこに自社の資源を集中することは当然といえば当然です。

しかし、自前で行なうには、あまりにも情報量が膨大で、サーバ数台のシステムで解析しようとしても、上述したようにシステム側がもたないでしょう。その解決策はやはり「分散コンピューティング」や「グリッド・コンピューティング」の活用なのでしょうね。

分散コンピューティング
by wikipedia
グリッド・コンピューティング
by wikipedia

昔からある概念である、「分散コンピューティング」や「グリッド・コンピューティング」というシステムは、以前ならば学術的な目的で、巨大なデータセンターや研究所などで行なうイメージが強かったのですが、最近だとPlaystation3による分散コンピューティング・プロジェクトFolding@homeのユーザの参加とか、上述したGoole検索などの例にもあるように、どんどん身近に捉えられるものになってきました。

さらにはクックパッドのように、AmazonEC2という安価なクラウドサービスを利用した活用例など、時代はついにここまで来たか!と驚きの声をあげずにいられません。

個人でWebサイトを構築し、ものすごいプレビュー数を誇るようなサイトのログだって、やろうと思えばEC2を利用して、そのサイトの細かい分析だって出来てしまうのです。つまり、個人ユースでも分散コンピューティングが必要なくらい膨大なデータを扱える時代がやってきたということの証左ではないでしょうか。

インターネットがもたらす今の時代は、利便性をもたらすと同時に、加速的に増加する情報の量をいかに捌くのかが課題になってきます。個人でも相当数の情報を抱える今のソーシャルネットワーク時代では、その分析や解析がこれからビジネスになっていきそうな、そんな予感があります。

それにしても、すごい時代になったものだなぁ~

AmazonのEC2に限っては、日本語をサポートしていないのでどうにも取っ付きにくいのですけども、この辺のところを学んでいかないと、おまんまが食えなくなってしまうかもしれません・・・。

そもそも今回のクックパッドのような「事例」はなかなか表に出にくい性格を帯びているので、私のような地方のなんちゃってSEが、その仕組みを知ることはなかなか困難だったりします。なので、こういう記事は今後自分の仕事にも役立つかもしれず、大変ありがたかったりします。

Hadoopのお勉強、始めようかな?
Twitterでつぶやく

| PCネタ・IT系ニュース | 12:35 | comments:2 | trackbacks:0 | TOP↑

COMMENT

>なあびんさん

ものすごいトラフィック量ですよね…(^_^;)
システム屋にこの数字を見せられると、胃が痛く…(笑)
クックパッドのシステム全貌を知りたくなりました。
Hadoop気になってます!!

| fuminchu | 2010/04/26 13:36 | URL |

演算処理もすごいと思いましたが、月間ページビューが4億6000万という
数字のほうがびっくり・・(@_@;
そのトラフィックをどう処理しているのか、そっちのほうが気になって
眠れなくなりそうです(うそです(笑 ) )

| なあびん | 2010/04/26 11:12 | URL |















非公開コメント

TRACKBACK URL

http://kininarukedo.blog84.fc2.com/tb.php/888-d1348104

TRACKBACK

PREV | PAGE-SELECT | NEXT

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。