ORCとは?大規模データ分析を高速化する列指向データフォーマット
ビッグデータ時代では、企業やサービスが扱うデータ量が急速に増えています。Webサービスのアクセスログ、ECサイトの購買履歴、アプリケーションのイベントデータ、IoT機器から送信されるセンサーデータ、業務システムの取引データなど、日々生成されるデータは膨大です。こうしたデータを単に保存するだけでなく、必要なときに高速に検索し、集計し、分析できる仕組みが求められています。データ分析基盤では、保存形式の選び方が処理速度、ストレージ容量、分析コストに大きく影響します。
従来よく使われてきたCSVやJSONは、人間が確認しやすく、システム間で扱いやすいデータ形式です。しかし、大量データ分析の観点では、すべての列を読み込む必要があったり、スキーマ情報を別途管理する必要があったり、圧縮効率やクエリ性能の面で課題が出ることがあります。特に、数十億行規模のログや、数十列から数百列を持つ分析データを扱う場合、データ形式の違いによって処理時間やクラウドコストが大きく変わります。
EN
JP
KR