AWSは大量なデータ処理への各段階において必要なサービスが提供されています。効率的なデータ蓄積では「S3」「Glacier」「Glue」。ストリームデータ処理では「Kinesis」。大量データの解析手法では、「Atena」「EMR」「QuickSight」「Redshift」などがあります。
目次
ビッグデータに必要な技術
ビッグデータに対応したデータ蓄積・処理技術が必要不可欠です。
- 大量データ・・・大量のデータを効率的に蓄積可能なデータベース技術
- 多様なデータ・・・多様な形式のデータを蓄積可能なデータベース技術
- 速い処理・・・高速処理が可能なデータ処理ソフトウェア/ハードウェア
データレイクの活用
ビッグデータ活用の中心はデータレイク型データベースです。
- データウェアハウス中心・・・利用用途に応じたデータを貯めて亜kつようするデータウェアハウス
- データレイク中心・・・できる限り生データをほぼ全データ保存するデータレイク
データレイクでは全データを生データのまま保存します。生データ形式・様々な種類のデータを蓄積して後から加工します。
Apacheシリーズ
ビッグデータ分散処理向けの代表的な仕組み(ミドルウェア)がApacheシリーズです。
- Apache Haddop・・・大量データバッチ処理向け
- Apache Spark・・・ストリーミング処理向け
次は「Kinesisの概要」です。
https://laphroaig-apple.com/2021/08/07/aws_kinesis/前回は、「データベースEFS」についてです。
https://laphroaig-apple.com/2021/07/07/aws_efs/リンク
コメント