こんにちは。
今回は、最近世間で注目されている ビッグデータ の取り扱い方について考えてみたいと思います。
ビッグデータとは
ビッグデータは以下のように定義されています。(もっと詳しく知りたい方は こちら をご覧ください)
市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑な データ集合の集積物を表す用語である。
「巨大」というのが1エクサバイトなのか1ペタバイトなのかは意見が分かれる所ですが、つまりは「今までのやり方じゃ処理出来ないくらい大きなデータの集まり」と言えるでしょう。
今までは、処理しきれないから捨ててしまっていた巨大なデータを、もう一度見直して利益につなげていこうじゃないか!!という動きが活発になったので、ビッグデータが注目されています。それは「大手ECサイトの全アクセスログ」であったり、「日本全国の高速道路交通量」であったりと実に多種多様。
そんなビッグデータを取り扱うための仕組みとして、一番認知されているのが今回取り上げます「Hadoop」です。
Hadoopとは
Hadoopは、「大規模分散計算フレームワーク」と呼ばれています。
特徴としては、分散ファイルシステム(HDFS)と並列処理フレームワーク(MapReduce)があります。
...
More