タグ別アーカイブ: Hadoop

hadoop – Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja – Qiita

なぜBigQueryはこんなインチキ臭いほどに高速なのか。BigQueryは、Cloudera Impara等のいまどきの大規模並列(Massively Parallel Processing/MPP)クエリエンジンや過去のデータウェアハウスマシンと同じくカラム型のデータ分析専用データベースである。しかし、他の多くのカラム型DBとBigQueryとの間には量子的飛躍が存在する。それは、並列度のオーダーだ。BigQueryでは、ひとつひとつのクエリを実行するたびに数百台〜数千台のマシンが同時並列に検索を実行している(←ケタ間違えていません)。文字通り、massivellyな並列処理だ。その上、インデックスは一切作らず、すべてディスクのフルスキャン(テーブルスキャン)で処理する。

1クエリに数千台、すべてフルスキャン。。この2点を初めて聞いた時はしばらく信じられなくて、BigQueryを開発したGoogleエンジニアに2〜3回は確認してしまった。

この恐ろしいまでの並列性には理由がある。Google社内において、「1TBのデータを1秒でフルスキャンするには、いったい何台のディスクドライブを並列に回せばよいのか?」という実験をし、その結果得られた答えが5,000台。それならば、Googleのデータセンターにすでに無数にあるディスクでクエリを並列実行できるカラム型DBを作ってみよう、というのがBigQueryの生まれた発想である。Google、おおざっぱすぎる。

数十程度の並列度のMPPクエリサービスとは、"massively"の意味がまるきり違う。私はつねづね、こういうのが本来の意味でのクラウド(=データや計算をデータセンター全体に薄く広く分散させるアーキテクチャ)なんだなと思う。

引用元: hadoop – Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja – Qiita.

ASCII.jp:“シリコンバレーの技術者集団”ではトレジャーデータを見誤る (3/5)

ただ、最近まずいなあと思うのは“クラウド上のHadoop”という言い方です。僕たちのコアコンピテンシはあくまで“データのパイプライン”を持っているという点。データを収集して、保存して、解析し、可視化するという4つをワンステップで提供できるので、実装が速い。どのお客さんでも2~3週間でプロジェクトが完了してしまいます。あるお客さんは2年間終わらなかったプロジェクトを5日間で終えてしまいました。また、われわれはマルチテナントのアプローチをとっているので、運用管理も効率的ですし、サービスの改善速度も速いです。

引用元: ASCII.jp:“シリコンバレーの技術者集団”ではトレジャーデータを見誤る (3/5).

Hadoopは汎用機の夢を見るか? – 急がば回れ、選ぶなら近道

Hadoopは汎用機の夢を見るか? – 急がば回れ、選ぶなら近道
大事なことは、汎用機のバッチでとられていた時間を取り戻せるということです。世の中のITの”新技術”は大抵は、まず業務側の変更を先に強制することが多いです。BIだろうと、CRMだろうと、SCMだろうと基本的には同じです。「ITだけではメリットはでない。まずはそのコストを吸収するために業務側に切り込まなくてはいけない」それはそうです。でも、これすごく大変。そもそも簡単に業務改革できていたら、もっと日本はよくなっていますよ・・・。「汎用機の バッチでとられていた時間を取り戻せる」というのは、表面時はまったく「業務改革」にはなりません。ところが、おもしろいことに、バッチが極端に短くなる と、いろいろ余波が出ます。あれもできるし、これもできるし・・・。いままで、「ITの制約で、できなかったことができるようになる」これが静かな業務改 革につながることがままあります。

Hadoop汎用機の夢を見るか?・・・・オンライン系はほぼオープン系に凱歌があがりつつあります。むしろ引き離しつつあると言ってもいいでしょう。最後の砦は、多重度をベースにしたバッチ処理でした。Hadoop汎用機の代わりに「直接的」になるというわけではありません。ただし、従来の汎用機バッチを巻き取れる仕組みが出てきたというのは事実です。もちろん、現行のHadoopアーキテクチャが最善とは言えません。今後はさまざまに進んで行くと思います。・・・Hadoop汎用機の夢を見るか? 非現実的な話ではないと思います。