AWS Redshiftとは

Redshiftとは、AWSが提供する大量のデータを高速に分析するためのデータベースサービスです。

Redshiftは大量データの集計・分析に特化しています。

通常のDBとの違い

主な特徴

列指向ストレージ	データを列単位で保存するため、特定の列だけを集計するような分析クエリが非常に高速です。例：特定の期間の売上合計だけを知りたいとき、関係のない住所や氏名のデータを読み飛ばせるため、スキャンするデータ量を減らせます。
大規模データ対応	テラバイト〜ペタバイト規模のデータを扱えます。
SQLで操作できる	PostgreSQLベースのSQLで操作できるため、SQLを知っていればすぐに使えます。
AWSサービスとの連携	S3・Glue・QuickSightなど他のAWSサービスと連携しやすい構成になっています。

主な用途

リーダーが指示して、コンピュートが、スライス単位で並列処理します。

ノード数・スライス数が多いほど、並列度が上がり処理が速くなります。

リーダーノード（Leader Node）

クライアントとの窓口＋クエリの司令塔

ポイント

コンピュートノード（Compute Node）

実際にデータを保存・処理する、作業サーバ

ノードタイプ

タイプ	特徴	向いている用途
RA3	ストレージをS3に分離・スケール柔軟	現在の主流・推奨
DC2	高速SSD搭載・コンピュート重視	高速処理が必要な場合

スライス（Slice）

CPU単位の作業者

スライス数の例

データの分散（分散キー）

データはスライス単位で分散して格納されます。この分散方法を分散スタイルと呼びます。