高速でスケーラブルな費用対効果の高いマネージド型のDWH /データレイク分析サービスです。クラスターというグループ単位で、複数ノードによってデータ処理を実行する構成になっています。
目次
Redshiftとは
Redshiftは列指向型のリレーショナルデータベースであり、データを分散・高速処理が可能な仕組みとなっています。
列指向のRDB
- 列指向型ストレージにデータを格納するリレーショナルデータベースのデータモデルを採用
- 大容量のデータアクセスを容易にしてディスクI/O効率化
データ圧縮
- データ圧縮によって一度に読み込めるデータ量が多くあることで、処理を高速化
- 分析ワークロードでブロック単位でデータを格納して、ディスクI/O効率化
ソート
- データが格納されているブロックに対してメタデータを付与して検査する
- リーダーノードのインメモリ上にメタデータを格納する
- データのソート順をテーブル毎にソートキーとして指定
データ分散
- データ量とクエリ内容に応じてノードに対する分散処理を調整し、効率的で高速な処理を実現
- キャッシュによる高速化
マテリアライズドビュー
頻繁に実行するクエリパターンを結合・フィルタ・集計・射影によって高速化する機能です。
運用の自動化
自動的なメンテナンス機能と詳細のモニタリングによる簡易な運用が可能です。
CloudWatchとの連動
- 初期設定でCloudWatchメトリクス取得が自動で実施され、Redshiftコンソール内で確認可能です。
自動バックアップ
- 自動でバックアップを定期取得する
- メンテナンスウィンドウでバックアップ実施時間を指定可能
- スナップショットを手動で取得することも可能
自動メンテナンス
- パッチ適用も自動で実施
- メンテナンスウィンドウでパッチ適用時間を指定可能
スケジューリング機能
- クラスターサイズの変更を設定
- クラスターの一時停止と再開を設定
機械学習によるクエリ効率化
機械学習によってクエリ実行を調整し、効率的な自動実行を補助してくれます。
テーブルメンテナンスの自動化
- テーブルの分散スタイルの自動最適化
- 統計情報の自動更新
- データの再編成の自動実行
自動ワークロード管理
- 複数クエリの実行をワークロード管理で設定する際に、機械学習でクエリ実行の優先順位消えを自動化する
ショートアクセルレーション
- 機械学習アルゴリズムを使用して対象のクエリを1つ1つ分析し、クエリの実行時間を予測し、実行時間が短いクエリよりも優先して実行
- WLWキューを削減可能
設定のレコメンデーション
- 自動でクラスターパフォーマンスなどを分析し、最適化やコスト削減に対するレコメンデーションを実施
次は「ElastiCache」です。
【AWS資格】ElastiCacheの概要 キャッシュとは、一度アクセスしたデータを保存して次回アクセス時に高速にアクセスできるようにする仕組みです。 【概要】 分散インメモリキャッシュサービスの構築・…
前回は「【AWS資格】Kinesisの概要」です。
【AWS資格】Kinesisの概要 ストリームデータを収集・処理するためのフルマネージド型サービスで主に3つのサービスで構成されています。 Amazon Kinesis Data Streams ストリームデータを処理す…
リンク
コメント