Koibumi

トークページへ

『事例講演「なぜクックパッドはRedshiftをデータ基盤に選び続けるのか」』
@aamine
へのフィードバック

  • Terutada Sakurai
    @TSaku0816
    2021/04/06 12:34
    分かりやすい資料ありがとうございます。
    データの種類や量が多そうですが、分析基盤としての整合性や拡張性を維持するために考慮しているポイントはありますか?
  • Minero Aoki
    2021/04/06 15:03
    (アーキテクチャの?)拡張性については、QAタイムにお答えしたように、例外を作らずにRedshiftに寄せていくことがポイントと思います。

    (取り込む各種データの?)整合性については、あるていど諦めている面はあります。基本的には集計して使うので、集計結果の大勢に影響するような大きな誤差でなければ許容するというスタンスです。

    一方、もし売上の処理のように誤差が許容できない処理がある場合は、例えば元データを履歴で持って行の更新が起こらないようなデータ形式にするなどの工夫をすると思います。行の更新が起こらなければ「いつ取り込むか」ではなくて「どこまで取り込んだか」という問題になるので、話がシンプルになります。
    @aamine

このスレッドへとコメントする

Koibumi

    • Language
    • 🇺🇸 English
      • › 日本語
      • › English
    © 2020 ElevenBack LLC.