トークページへ

『事例講演「なぜクックパッドはRedshiftをデータ基盤に選び続けるのか」』

@aamine

へのフィードバック

pei
@pei0804

2021/04/06 12:30

31~33ページ目のSQLですべて処理するについて、良い例がなぜ良いのか、悪い例がなぜ悪いのか聞きたいです。
https://www.slideshare.net/mineroaoki/cookpad-techconf-2016-dwh
過去の発表への質問ですいません。現状のRedshiftでも同じ見解なのかを、改めて聞きたいです。

Minero Aoki

2021/04/06 15:11

これは簡単で、データ量に対してスケールしないからです。完全に並列処理可能ならマルチプロセスやマルチスレッドで処理することでスケールするかもしれませんが、ジョインや再分散が必要な計算を自前で書くのはコスパが悪すぎます。

ビッグデータの処理ではまずデータを移動させない（= DBの外に出さない、ネットワーク転送させない）のが大原則で、Redshiftが必要なデータ量に対してわざわざアプリケーションで処理するのは悪手と思います。

@aamine

このスレッドへとコメントする

Language
🇯🇵 日本語
- › 日本語
- › English

© 2020 ElevenBack LLC.