ながあきがんばって!

関西の中年AWSエンジニアブログ

AWSプロダクトシリーズ|よくわかる Amazon Redshift in 大阪に参加して来ました

 

2月21日 AWSプロダクトシリーズ|よくわかるAmazon Redshift in 大阪(大阪府)に参加して来ました。

参加メモのまとめです。
大体がAmazon Redshift (ペタバイト級の データウェアハウス サービス) | アマゾン ウェブ サービス(AWS 日本語)に記載されている気がしますが。


**************************************************************************************
AWSのデータ分析基盤は、Collect,Store,Analyzeの3要素で考えることができる。

■Collect(収集基盤)について
AWSのImportExportは、国内では提供されていない。よって、AWSのCollectはDirectConnectとKinesisの2つ。
Kinesisは、リアルタイム処理が売り。例えば、機械のセンサーから受けたデータを格納するとか。

■Storeについて
・Storeは、S3,DynamoDB,Glacier。
・S3は、何でも格納することができる。堅牢性が売り。

■Analyze(分析基盤)について
・Analyzeは、EMR,Redshift,EC2。
・EMRのspot pricingは、通常の時間課金よりも安価に利用することができる。

■本題のRedshiftについて
・petabyteクラスのデータを扱うことができる。
・$1,000/TB/Year!
・コンセプトは高速、安い、シンプル。
・クライアントからJDBC/DBCで接続する。PostgreSQLのドライバがそのまま使える。
・DW1はHDD。DW2はSSD。格納できる容量も違う。
・DW1にはXL(エクストララージと読む)と8XLがある。DW2はLと8XL。
※容量とお値段は、こちら(http://aws.amazon.com/jp/redshift/pricing/ )
・バックエンドのComputeNode,S3/DynamoDBは暗号化して格納される。
VPCがサポートされている。
・Redshiftのクラスタは3分以内で立ち上がる。
・バックアップは、手動を選択することで任意のバックアップ期間指定も可能。
・他のリージョンへのDR対策も簡単。
クラスタの健全性がAWS側で担保されているので、ユーザはアプリに集中できる。
・RemoteLoading。例えばMongoDBとSSHでセッションを張って接続することができる。
・COPY from SSH。かつては一旦S3にデータを置いて、Redshiftにロードする必要があった。
・監査ログも残せる。システムレベルとデータベースレベルの2種類。クラスタへの操作が全てS3に記録される。
・操作イベントは、SNSを通して通知を行うことができる。
・活用事例。既存オンプレDWHで拡張できないケースにRedshiftを併用もしくは移行。コスト削減とスケールできる柔軟性を獲得。
・データロードのソリューション。S3に並列Upload、DirectConnect、ELTなど。