Koibumi

トークページへ

『事例講演「なぜクックパッドはRedshiftをデータ基盤に選び続けるのか」』
@aamine
へのフィードバック

  • pei
    @pei0804
    2021/04/06 12:30
    31~33ページ目のSQLですべて処理するについて、良い例がなぜ良いのか、悪い例がなぜ悪いのか聞きたいです。
    https://www.slideshare.net/mineroaoki/cookpad-techconf-2016-dwh
    過去の発表への質問ですいません。現状のRedshiftでも同じ見解なのかを、改めて聞きたいです。
  • Minero Aoki
    2021/04/06 15:11
    これは簡単で、データ量に対してスケールしないからです。完全に並列処理可能ならマルチプロセスやマルチスレッドで処理することでスケールするかもしれませんが、ジョインや再分散が必要な計算を自前で書くのはコスパが悪すぎます。

    ビッグデータの処理ではまずデータを移動させない(= DBの外に出さない、ネットワーク転送させない)のが大原則で、Redshiftが必要なデータ量に対してわざわざアプリケーションで処理するのは悪手と思います。
    @aamine

このスレッドへとコメントする