Writer:安藤 隼人
Azure Synapse Analyticsとは?ペタバイトサイズのビッグデータを効率よく分析
Microsoft Azure Synapse Analytics(旧称:Azure SQL Data Warehouse)は、データ統合、データウェアハウス、ビッグデータ分析を1つにした分析サービスです。インフラ環境を準備しなくてもオンデマンドで分析を実行できるサーバーレスSQLプール機能を持ち、さらにペタバイト規模のデータも難なく対応できる処理能力が魅力です。では早速サービス内容をみていきましょう。
ネクストステップにおすすめ
Azure Synapse Analyticsとは
Azure Synapse Analyticsは、Azure SQL Data Warehouseの後継サービスで、Azure SQL Data Warehouseで提供されていたペタバイト級のデータを並列処理できるデータウェアハウスに、ビッグデータ解析機能とサーバーレスSQLプール機能を付加した分析プラットフォームです。
SQLプールとは、SQLの前処理結果を保存して処理時間を短縮するための領域のことです。ストレージを持たないサーバーレスSQLプールを使用することで、課金対象は処理のために読み込んだデータだけとなり、従来の専用SQLプールよりコストが抑えられるようになりました。
また、これまではビッグデータの解析を実施するために、データウェアハウスとETLツール(データ変換ツール)、データレイク、ビッグデータ解析ツールを個別に準備し、データを個々のツールに連携させる手間がかかっていましたが、Azure Synapse Analyticsはこれらの機能を全て含んでいるため、ワンストップで対応できるようになりました。
さらにPower BIやAzure Machine Learningを活用している場合は、Azure Synapse Analyticsと連携させることにより、データ管理や分析、レポートの作成、データサイエンスまで対応でき、Dynamics 365、Microsoft 365(旧Office365)などのSaaSサービスにも数クリックでスムーズにデータをシェアできます。例えば複数の軸のビッグデータを効率よく分析し、経営層を説得するような分析結果を導き出す際などはAzure Synapse Analyticsが最適といえます。
Azure Synapse Analyticsのメリット
Azure Synapse Analyticsを利用すると、オンプレミスとの連携による柔軟な運用や大規模なデータ処理、関連ツールがワンストップで使用できるなど、明確なメリットが複数あります。順番にその詳細をみていきましょう。
オンプレミスとの連携で柔軟な運用
Azure Synapse Analyticsはクラウドのみでの構築はもちろん、オンプレミスの環境を拡張するためにも使えます。オンプレミスのデータウェアハウスの運用を維持しながら、高負荷の作業をAzureに移行することで、データ処理の待機時間などを削減し業務をさらに効率化できます。企業のコンプライアンスでデータをオンプレミスに配置しなければならないこともありますが、オンプレミスとAzure Synapse Analyticsのハイブリッド環境ならば、そのような要件にも対応できます。
大規模なデータ処理が可能
Azure Synapse Analyticsは、ペタバイト規模の巨大なデータクエリ発行が可能です。さらに、データベースエンジンにはMicrosoftが1989年から開発・改良を続けており、TPC-Hでも上位に複数項目がランクインしているMicrosoft SQL Serverを利用しているため、SQL文の解釈や実行時の効率が優れています。TPC-Hとはデータベースの性能差を計測するための指標(ベンチマーク)で、22種類のクエリによって構成されています。
またAzure Synapse Analyticsは、データを蓄積するストレージ層とデータを分析するコンピューティング層が分離しているため、ストレージの入力・出力が分析に影響を与えにくく、またコンピューティング層のスケーリングをストレージ層に関係なく頻繁に実施できるという点もメリットです。ストレージ層とコンピューティング層が、それぞれ本来の目的に注力できます。
関連ツールがワンストップで使用可能
これまでのデータ分析では、ETLツールなどを利用してデータを加工したり、データレイクにデータを格納したりと、異なるツールを使い分ける必要がありました。旧サービスのAzure SQL Data Warehouseでは、データ分析基盤を構築する際に「Azure Data Factory」「Azure Databricks」などのETLツールやミドルウェアを組み合わせる必要がありましたが、Azure Synapse Analyticsでは仕様が改善がなされ、ワンストップでの使用が可能になりました。ツールは管理画面の「Synapse Analytics Studio」からまとめて利用できるため、複数のツールを使い分ける手間が省けます。
高速な処理と低いコストでシステム運用改善に貢献
Azure Synapse Analyticsは、クラウドに配置されたデータウェアハウスとしては業界最高峰のコストパフォーマンスを誇っています。
2019年1月に発行されたGigaOm Analytics Field Test-Hベンチマークレポート(TPC-Hを用いた比較のレポート)では、他のクラウドプロバイダーよりも最大で14倍高速・94%のコスト差があると証明されていて、Azure Synapse Analyticsの公式ページでも、同内容について言及がありました。そのコストパフォーマンスで多くの企業に導入されています。
Azure Synapse Analyticsの導入事例
経営改革プランの分析基盤やミッションクリティカルなデータの運用など、様々な場面でAzure Synapse Analytics導入事例があります。その内容を簡単にみていきましょう。
経営改革プランの分析基盤にAzure Synapse Analyticsを採用
とある大手物流企業では、組織構造の改革プランを実行する際、「デジタル化」と「データ活用」も同時に推進したい思いがありました。そのため、数千億円単位の資金をデジタル分野に投資し、数百人規模の新しいデジタル組織を立ち上げる計画が進んでいます。
データ活用にあたって強固なデータ分析基盤の構築が急務となっていた同社は、複数のデータ分析基盤について実際に自分たちが使用している実データとSQLを使って、パフォーマンスや機能、コストなどを比較検証しました。その結果、トップクラスのパフォーマンスであったこと、日本語を含むデータの処理が問題なく実施できたこと、クエリに対する料金が固定であることなどの理由からAzure Synapse Analyticsが採用されました。
ミッションクリティカルなデータをクラウドで活用
大手金融系会社において情報システムのクラウド化が推進されています。
ミッションクリティカルなデータを大量に扱う金融業界ではクラウドの活用に慎重な面があり、オンプレミスのインフラと内製のアプリケーションがどうしても中心になりますが、従来のITシステムではビジネスや社会の急激な変化に対応しにくいという事情もありました。そこで、社内の情報システムをクラウド上に移行するプロジェクトが立ち上がったのです。
パブリッククラウドにはMicrosoft Azureが採用され、クラウド上での様々なデータ活用のために、Azure Synapse Analyticsが導入されました。
システム更改などのタイミングに合わせ、システム用途やセキュリティレベル、可用性といった基準から、更改対象のシステムがクラウド化に向いているかを検討し、クラウドへ順次システムを移行しています。
Azure Synapse Analyticsの料金
Azure Synapse Analyticsは「オンデマンド サーバーレス」モデルで、必要な分だけデータを読み込ませて事前に展開されたサーバーで運用し、必要なときに必要な分だけスケールアップまたはスケールダウンできます。あらかじめ決まったリソースを確保しておく従量課金の専用SQLプール(3年予約で最大65% の節約可能)と比較し、予算と用途に応じてどちらが良いかを選択しましょう。
Azure Synapse Analyticsには、2021年8月現在、下記4つのプランがあります。
データ統合
データを取り込んで必要な形式に変換する際のプランです。データの取り込みは、データ分析の前に実施することが非常に多いため、Azure Synapse Analyticsを利用するほとんどの方がこのプランの費用を支払う必要があります。
データの探索とデータウェアハウス
サーバーレスSQLプール、もしくは従量課金の専用SQL プールを利用して、データのクエリと分析を行う際のプランです。数百テラバイト程度までのデータに対して、一般的な生産分析などを実施する方に向いています。サーバーレスと専用の2種類から選択でき、専用の場合は、従量課金制(定額)、1年予約(~37%の削減)、3年予約(~65%の削減)から選択できます。
Apache Sparkを使用したビッグデータ分析
Azure Synapse Analyticsでサーバーレス Spark プールを作成し、ビッグデータ分析を実施する際のプランです。Apache Sparkは、数千テラバイト~数ペタバイトに達する1台のコンピューターでは扱えない巨大なデータに対して高速に分散処理を実施できます。主に機械学習で効率的に学習を進めたい方などに活用されています。
専用SQL プール(旧称 SQL DW)
リレーショナルデータベースを専有し、SQL分析を実施する場合のプランです。「データの探索とデータウェアハウス」プランの専用SQLプールと内容は同じです。従量課金制(定額)、1年予約(~37%の削減)、3年予約(~65%の削減)から選択できます。
例えば「データの探索とデータウェアハウス」プランにおいて「サーバーレス」プランの内容を用いてサーバーレスSQLプールを利用する場合、2021年8月現在でデータ処理数1TBあたり672円の費用がかかります。また、ストレージの料金として1TBごとに月額2,600円程度の費用(1TBを1時間利用すると3.62円)が必要です。
詳細は下記公式サイトをご覧ください。
Azure Synapse Analytics の価格
Azure Synapse Analyticsでスムーズな経営管理を
Azure Synapse Analyticsとは、データウェアハウスとビッグデータ解析をまとめたサービスで、ペタバイト規模のクエリ発行ができます。様々なサービスをワンストップで使用できるため、組織のディシジョンがスムーズかつスピーディです。また、通常であればオンプレミスでデータウェアハウスを構築する場合には数千億のコストを要しますが、クラウドを活用することでイニシャルコストを下げて対応でき、また事業規模の拡大に合わせて柔軟にスケールアップもしていけます。
Azure Synapse Analyticsでスムーズな経営管理を実施していきましょう。
ネクストステップにおすすめ
Azure Synapse Analyticsとは?の次にお読みいただきたい資料はこちら