AWS AI/MLおよびアナリティクスサービス

Q: 5. OCRにはどのAWS AI/MLサービスを使うべきか？

ドキュメント・フォーム・表からのOCRと構造抽出には Amazon Textract を使う。Amazon Textractはキーと値のペア・テーブルセル・関係性を保持するため、汎用OCRよりも優れている——請求書・税務フォーム・身分証明書・医療記録に最適だ。画像のみのプレーンテキストOCR（標識など）はAmazon Rekognitionの画像内テキスト検出でも対応できるが、ドキュメント指向のユースケース（領収書・PDF・フォーム）はAmazon Textractを選ぶこと。

Q: 7. AWS AI/MLサービスはAWS責任共有モデルの対象か？

はい。AWSはAI/MLサービスのセキュリティ を 所有する（インフラ・マネージドモデルホスティング・パッチ適用）。お客様はサービス 内 のセキュリティを所有する（訓練データの保護・IAMポリシー・プロンプトコンテンツ・モデルアーティファクト・APIキー管理）。これはAmazon RDSのような他のマネージドサービスと同一だ。Amazon Bedrockを使った生成AIでは、お客様のプロンプトと完成コンテンツはファウンデーションモデルの訓練に使用されない——試験シナリオで頻繁に出るコンプライアンス上の懸念事項だ。

AWS AI/MLおよびアナリティクスサービスは、独自のGPUクラスター・Sparkファーム・データウェアハウスを運用することなく、機械学習・生成AI・大規模データ分析を適用できるマネージドクラウドサービス群だ。AWS認定クラウドプラクティショナー（CLF-C02）試験のタスクステートメント3.7では、与えられたユースケースにどのAWS AI/MLサービスが適合するか、またどのAWSアナリティクスサービスがどのスタイルのデータを処理するかを識別する能力が問われる。最も試験に出るサービス名はAmazon SageMaker・Amazon Bedrock・Amazon Q・Amazon Rekognition・Amazon Comprehend・Amazon Textract・Amazon Athena・Amazon Redshift・Amazon Kinesis・AWS Glue・Amazon QuickSightだ。このトピックはドメイン3の中で最も急成長しているサブ領域（前年比+25%）であり、試験では少なくとも3〜5問の出題が予想される。

本学習ガイドはCLF-C02の設計図にあるすべてのAWS AI/MLサービスとAWSアナリティクスサービスを網羅し、Amazon SageMakerとAmazon Bedrockの罠、Amazon Kinesis Data StreamsとAmazon Data Firehoseの罠、Amazon AthenaとAmazon Redshiftの罠を解読し、5つのFAQと実践対応のまとめで締めくくる。

AWS AI/MLとアナリティクスサービスとは何か？

AWS AI/MLサービスは三層のスタックだ。最下層はAmazon SageMaker——データサイエンティストがカスタムモデルを訓練・デプロイするためのエンドツーエンドAWS AI/MLプラットフォーム。中間層はAmazon Bedrock——生成AIのためにAnthropic Claude・Meta Llama・Amazon Titanなどの事前訓練済みファウンデーションモデルをサーバーレスAPIとして提供するサービス。最上層はタスク特化型AWS AI/MLサービスファミリー（Amazon Rekognition・Amazon Comprehend・Amazon Transcribe・Amazon Polly・Amazon Translate・Amazon Textract・Amazon Lex・Amazon Personalize・Amazon Forecast・Amazon Kendra）とAmazon Q——すべてモデルチューニング不要の単一APIコールで消費できる。

AWSアナリティクスサービスはこのAI/MLスタックの隣に位置する。Amazon AthenaはAmazon S3上でサーバーレスSQLを実行する。Amazon Redshiftはペタバイトスケールのデータウェアハウスだ。AWS GlueはETLとデータカタログを担う。Amazon Kinesis（およびAmazon MSK）はリアルタイムでイベントをストリーミングする。Amazon EMRはマネージドHadoopとSparkを実行する。Amazon OpenSearch ServiceはサーチとObservabilityを提供する。Amazon QuickSightはBIダッシュボードを届ける。AWS Lake Formationはデータレイクを統治する。

AWS AI/MLサービスとAWSアナリティクスサービスはあわせて、AWS上のすべての最新データプロダクトの基盤を形成する——そして試験は、最初の読解で正しいサービスを選べるかをテストする。

AI/MLとアナリティクスサービスがCLF-C02で重要な理由

CLF-C02のドメイン3は試験全体の34%を占める。タスクステートメント3.7は生成AIのカバレッジで新たに強化されており、Amazon BedrockとAmazon Qは2024年以降のブループリントに追加された。試験シグナルの頻度は生成AI問題で48（+35%）と、いかなるトピックよりも速いトレンドラインを示している。このトピックを見落とすことが、現在CLF-C02で不合格になる最大の単一要因だ。

やさしい解説: AWS AI/MLサービスとアナリティクスサービスは難しそうに聞こえるが、三つの平易な類比でその仕組みが腑に落ちる。

類比1 — 大学食堂の厨房ライン（調理場パターン）

データ作業を大学食堂の厨房ラインとして考えてほしい。

Amazon SageMakerは分子ガストロノミーの設備を完備した専任シェフだ。生の食材（訓練データ）を持ち込んでゼロからオリジナルの料理（カスタムモデル）を作り上げる。
Amazon Bedrockは既製品のデザートステーションだ——事前訓練されたファウンデーションモデル（Claude・Llama・Titan）がすでに盛り付けられている。プロンプトというトッピングを加えるだけでいい。
Amazon Qはメニューを熟知し常連客を覚えているホールスタッフだ。その場でビジネス上の質問に答える。
Amazon Rekognition・Amazon Comprehend・Amazon Transcribe・Amazon Polly・Amazon Translate・Amazon Textractは単機能の調理器具だ——ミキサー・トースター・ジューサー。一つの食材を入れれば一つの結果が出てくる。
Amazon Athena・Amazon Redshift・Amazon EMR・Amazon Kinesis・AWS Glue・Amazon QuickSightは準備台・冷蔵庫・業務用ミキサー・コンベアベルト・食器洗浄機・配膳窓口だ——すべてのAWSアナリティクスサービスが厨房の異なる工程に対応している。

試験問題に「生の顧客写真を分析したい」と書かれていれば、分子ガストロノミーラボ（Amazon SageMaker）ではなくミキサー（Amazon Rekognition）を選ぶ。

類比2 — 十三枚刃のスイスアーミーナイフ（多機能刃パターン）

AWS AI/MLサービスのポートフォリオは13枚刃のスイスアーミーナイフだ。

大きなカスタムブレードがAmazon SageMaker——自分で研ぎ直す刃。
コルク抜きがAmazon Bedrock——すでに形が整っている。コルク（プロンプト）を引き抜くだけ。
ハサミ・ピンセット・つまようじ・ヤスリ・のこぎりがAmazon Rekognition（画像・動画）・Amazon Comprehend（NLP）・Amazon Textract（OCR）・Amazon Transcribe（音声テキスト変換）・Amazon Polly（テキスト音声変換）・Amazon Translate（翻訳）・Amazon Lex（チャットボット）・Amazon Personalize（推薦）・Amazon Forecast（時系列）・Amazon Kendra（エンタープライズ検索）だ。

CLF-C02試験では何かを構築する必要はない。仕事に合った正しい刃を選ぶだけでよい。「スキャンしたPDFからテキストと表を抽出する」＝Amazon Textract。「レビューをスペイン語に翻訳する」＝Amazon Translate。「ツイートの感情を検出する」＝Amazon Comprehend。それだけが技だ。

類比3 — 宅配便の仕分けセンター（郵便システムパターン）

AWSアナリティクスサービスは宅配便会社がデータを配送するように機能する。

Amazon Kinesis Data Streamsは仕分けセンター内のライブコンベアベルトだ——荷物がリアルタイムで流れ、どこに届けるかを自分で決める。
Amazon Data Firehose（旧Kinesis Data Firehose）は自動配達トラックだ——事前設定した宛先（Amazon S3・Amazon Redshift・Amazon OpenSearch Service）に荷物を自動で届ける。
Amazon MSKは同じコンベアベルトだが、Apache Kafkaをベースにした組織向けで、すでにKafkaを標準化している企業に適している。
Amazon S3は荷物が長期保管される倉庫だ。
AWS Glueはすべての封筒にラベルを貼り（データカタログ）、住所の形式を書き直す（ETL）メールルームだ。
Amazon AthenaはSQLを使って倉庫内で直接どの荷物でも内容を確認できる係員だ。
Amazon Redshiftはインデックス付きの棚を持つ高セキュリティアーカイブだ——ペタバイトスケールのOLAPレポートへの高速アクセスに優れる。
Amazon EMRはSparkとHadoopを動かす大型仕分けロボットだ。
Amazon QuickSightは日次配達統計をリアルタイム表示するフロントデスクのモニターだ。
AWS Lake Formationは建物全体の権限ルールを設定する郵便局長だ。
Amazon OpenSearch Serviceは検索インデックスだ——「この荷物はどこ？」と問えば即座に答えが返る。

この配送センターのイメージを念頭に置けば、AWSアナリティクスサービスのあらゆる問題が地理クイズのようになる。

基本動作原理 — 事前構築済みAI API・カスタムML・生成AI

AWS AI/MLサービスは三層の抽象化モデルに従う。この層境界を理解することがCLF-C02で最も役立つ思考ツールだ。

Tier 1 — AIサービス（事前構築済みAPI）：Amazon Rekognition・Amazon Comprehend・Amazon Transcribe・Amazon Polly・Amazon Translate・Amazon Textract・Amazon Lex・Amazon Personalize・Amazon Forecast・Amazon Kendra。モデル訓練不要。APIを呼び出せば結果が返る。
Tier 2 — 生成AI／ファウンデーションモデル：Amazon Bedrock（ファウンデーションモデルマーケットプレイス）とAmazon Q（Bedrockの上に構築された事前構築済みアシスタント）。プロンプトを提供すれば、モデルがテキスト・画像・コードを推論・生成する。
Tier 3 — MLプラットフォーム：Amazon SageMaker。データを持ち込み、アルゴリズムを選択し、訓練・チューニング・デプロイを行う。最大の柔軟性、最大の工数。

「最小限のML専門知識で事前訓練済みモデルを使いたい」という問題はTier 1またはTier 2に対応する。「データサイエンスチームがカスタムモデルを訓練するためのノートブック環境を必要としている」という問題はTier 3（Amazon SageMaker）に対応する。

ファウンデーションモデルとは、大量の汎用データで訓練された大規模な事前訓練済みモデル（Anthropic ClaudeやAmazon Titanなど）で、プロンプトやファインチューニングによって多くの下流タスクに適応できる。Amazon BedrockはファウンデーションモデルをAPIとしてアクセスするためのAWSサービスだ。出典: https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html

事前構築済みとカスタムの判断ツリー

「MLチームなし、OCRが欲しい」→ Amazon Textract（事前構築済み）。
「MLチームなし、感情検出が欲しい」→ Amazon Comprehend（事前構築済み）。
「人間らしいチャットボットが欲しい」→ Amazon LexとAmazon Polly、または生成レスポンス用Amazon Bedrock。
「独自の不正検知モデルをデプロイしたい」→ Amazon SageMaker。
「チャットUIで社内文書を要約したい」→ Amazon Q Business。
「APIでマーケティングコピーを生成したい」→ ClaudeまたはTitanを使ったAmazon Bedrock。

生成AIサービス — Amazon BedrockとAmazon Q

Amazon Bedrock

Amazon Bedrockは、Anthropic（Claude）・Meta（Llama）・AI21 Labs（Jurassic）・Cohere・Mistral AI・Stability AI（Stable Diffusion）・Amazon（Titan、Nova）のファウンデーションモデルを単一のAPIを通じて提供する完全マネージドAWS AI/MLサービスだ。Amazon Bedrockはサーバーレス——GPUのプロビジョニングもモデルサーバーの運用も不要。お客様は、Amazon Bedrock Knowledge Basesを使ったファインチューニングまたは検索拡張生成（RAG）で独自データを使ってファウンデーションモデルをカスタマイズでき、Amazon Bedrock Agentsでモデルを連鎖させることもできる。

Amazon Bedrockの試験頻出事実：

サーバーレス、インフラ管理不要。
一つのAPIの背後に複数のファウンデーションモデルプロバイダー。
Amazon Bedrockに送信されたデータはベースモデルの訓練に使用されない。
多数のAWSリージョンで利用可能（リージョンごとのモデル可用性あり）。

Amazon Q

Amazon QはAmazon Bedrockを一部の基盤として動くビジネス向けAIアシスタントファミリーだ。

Amazon Q Businessは、会社の文書・Wiki・S3バケット・Salesforce・ServiceNowなどに接続し、引用つきで自然言語の質問に答えるエンタープライズアシスタントだ。
Amazon Q Developer（旧Amazon CodeWhisperer）はIDE内でコードを生成・レビュー・説明するコーディングアシスタントであり、AWSマネジメントコンソールのトラブルシューティングも支援する。
Amazon Q in QuickSightは平易な英語の質問からBIナラティブとダッシュボードを生成する。
Amazon Q in Connectはリアルタイムでコンタクトセンターエージェントを支援する。

CLF-C02試験で「ビジネスユーザーが社内文書上でチャットアシスタントを使いたい」とシナリオに書かれていれば、Amazon Q Businessを選ぶ。「開発者がカスタム生成AIアプリを構築するためにClaude/Llama/TitanへのAPIアクセスが必要」と書かれていれば、Amazon Bedrockを選ぶ。Amazon Qは非技術ユーザーが触れる既製品のアシスタントであり、Amazon Bedrockは開発者がコードから呼び出すエンジンだ。出典: https://docs.aws.amazon.com/amazonq/latest/qbusiness-ug/what-is.html

カスタムMLプラットフォーム — Amazon SageMaker

Amazon SageMakerはフラッグシップのエンドツーエンドAWS AI/MLプラットフォームだ。MLライフサイクルのすべてのステップをカバーする：

データ準備——Amazon SageMaker Data Wrangler・Amazon SageMaker Feature Store・ラベリング用Amazon SageMaker Ground Truth。
モデル構築——Amazon SageMaker Studioノートブック・組み込みアルゴリズム・JumpStart事前訓練済みモデル。
訓練——分散訓練・自動モデルチューニング（ハイパーパラメータ探索）・大規模ファウンデーションモデル訓練用Amazon SageMaker HyperPodによるマネージドトレーニングジョブ。
デプロイ——リアルタイムエンドポイント・サーバーレスエンドポイント・バッチ変換・Amazon SageMaker Asynchronous Inference・マルチモデルエンドポイント。
MLOps——Amazon SageMaker Pipelines・モデルレジストリ・Model Monitor・Clarify（バイアス検出）。

CLF-C02では、Amazon SageMakerをエンドツーエンドでカスタムモデルを構築・訓練・デプロイするAWS AI/MLサービスとして認識するだけで十分だ。深い機能の記憶（どのサブフィーチャーが何をするか）はAIF-C01やMLS-C01のスコープであり、CLF-C02ではない。

Amazon SageMaker＝自分のモデルを構築・訓練・デプロイする。Amazon Bedrock＝他者のファウンデーションモデルをAPIで呼び出す。問題に「訓練データ」「ノートブック」「ハイパーパラメータ」が登場すればAmazon SageMaker。「ファウンデーションモデル」「Claude」「Titan」「生成AI」が登場すればAmazon Bedrock。出典: https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html

事前構築済みAI/ML API — タスク別サービスカタログ

単一のAPIコールで単一の用途を解決するAWS AI/MLサービス群だ。名詞とサービスのマッピングを暗記すること。

Amazon Rekognition — 画像と動画の分析

Amazon Rekognitionは画像と動画を分析し、物体・シーン・活動・安全でないコンテンツ・画像内テキスト・顔（著名人認識・顔比較・保存コレクションに対する顔検索を含む）を検出する。ライブ動画分析はAmazon Kinesis Video Streamsと連携して機能する。

ユースケース：ユーザー生成プラットフォームのコンテンツモデレーション・顔認証ログイン・職場安全（PPE検出）。

Amazon Comprehend — 自然言語処理

Amazon Comprehendは事前構築済みのNLP AWS AI/MLサービスだ。エンティティ（人物・場所・組織）・キーフレーズ・感情（肯定/否定/中立/混合）・言語検出・構文・個人を特定できる情報（PII）を抽出する。Amazon Comprehend Medicalは医療特化のNLP（ICD-10-CMコード・RxNorm薬品名）を追加する。

ユースケース：顧客レビューの感情スコアリング・コンプライアンスのための秘匿化・多言語コンテンツルーティング。

Amazon Textract — ドキュメントOCRとフォーム・表の構造抽出

Amazon TextractはOCRを超える。PDF・請求書・ID・手書きページからフォーム（キーと値のペア）と表の構造を保持する。通常のOCRとは異なり、Amazon Textractはセルとフィールドの関係性を含む構造化JSONを返す。

ユースケース：自動請求書処理・ローン申請の受付・医療フォームのデジタル化。

Amazon Transcribe — 音声テキスト変換

Amazon Transcribeはバッチモードまたはストリーミングモードで音声をテキストに変換し、多数の言語・話者識別・カスタム語彙・自動言語検出・臨床音声向けAmazon Transcribe Medicalをサポートする。

ユースケース：コールセンターの書き起こし・ポッドキャストの字幕・議事録作成。

Amazon Polly — テキスト音声変換

Amazon Pollyはニューラルおよびロングフォームの音声を使ってテキストを自然な音声に変換する。出力形式はMP3・Ogg Vorbis・PCM。きめ細かな制御のためのSpeech Synthesis Markup Language（SSML）をサポートする。

ユースケース：IVRプロンプト・オーディオブック生成・アクセシビリティツール。

Amazon Translate — ニューラル機械翻訳

Amazon Translateは75以上の言語でニューラル翻訳を提供し、リアルタイムまたはバッチ処理で、ブランド固有語彙のカスタム用語集とドメイン適応のためのActive Custom Translationをサポートする。

ユースケース：製品カタログのローカライズ・リアルタイムチャット翻訳・多言語カスタマーサポート。

Amazon Lex — 会話チャットボット

Amazon LexはAlexaを動かす会話AI AWS AI/MLサービスだ。インテント・スロット・AWS Lambdaによるフルフィルメントを使って音声およびテキストチャットボットを構築する。Amazon Lex V2は多言語ボットとストリーミング会話を追加する。

ユースケース：カスタマーサービスボット・予約スケジューリング・銀行IVR。

Amazon Personalize — リアルタイム推薦

Amazon PersonalizeはAmazon.comが使用するのと同じ推薦エンジン技術を構築する。ユーザーインタラクションとアイテムカタログを入力すると、APIからリアルタイムのパーソナライズされた推薦・関連アイテム・パーソナライズされたランキングが返る。

ユースケース：商品推薦・コンテンツフィードのパーソナライズ・パーソナライズされたメール。

Amazon Forecast — 時系列予測

Amazon Forecastは、Amazon.comが需要計画に使用するのと同じ技術を用いて時系列予測を生成する。複数のアルゴリズム（ARIMA・Prophet・DeepAR+・CNN-QR）に対するAutoMLを組み合わせる。

ユースケース：小売在庫予測・人員計画・財務指標予測。

Amazon Kendra — エンタープライズ検索

Amazon Kendraはインテリジェントなエンタープライズ検索AWS AI/MLサービスだ。内部リポジトリ（Amazon S3・Microsoft SharePoint・Salesforce・ServiceNow・Confluence・Google Drive）全体にわたる自然言語の質問を理解し、キーワードマッチではなく精確な回答を返す。

ユースケース：社内ナレッジベース・ITヘルプデスク検索・カスタマー向けFAQ検索。

AWS AI/MLサービスの事前構築済みAPIでは、問題に出てくる名詞を常に一つのサービスに対応づけること。画像・動画→Amazon Rekognition。音声テキスト変換→Amazon Transcribe。テキスト音声変換→Amazon Polly。言語翻訳→Amazon Translate。感情・エンティティ→Amazon Comprehend。ドキュメントのフォームと表→Amazon Textract。チャットボット→Amazon Lex。推薦→Amazon Personalize。予測→Amazon Forecast。エンタープライズ検索→Amazon Kendra。出典: https://docs.aws.amazon.com/comprehend/latest/dg/what-is.html

AWSアナリティクスサービス — フルスタック

AWSアナリティクスサービスは、取り込み・保管・カタログ化・クエリ・ウェアハウジング・ビッグデータ処理・BI・検索・ガバナンスをカバーする。CLF-C02試験では認識が問われ、深いチューニングは問われない。

Amazon Athena — Amazon S3上のサーバーレスSQL

Amazon AthenaはAmazon S3内のデータに対してインフラゼロで標準SQLを実行する。スキャンしたテラバイト単位で課金される。Amazon AthenaはAWS Glueデータカタログをメタデータストアとして使用する。Amazon Athenaのフェデレーテッドクエリは、Amazon DynamoDB・Amazon RDS・その他のソースからも読み取れる。Amazon S3に保存したログファイル・CSVエクスポート・Apache Parquet・Apache ORCデータセットのアドホック分析に最適だ。

Amazon Redshift — ペタバイトスケールのデータウェアハウス

Amazon Redshiftはオンライン分析処理（OLAP）のためのAWSアナリティクスサービスだ。ペタバイトスケールまでスケールする列指向・超並列処理データウェアハウスだ。Amazon Redshift Serverlessはキャパシティを自動プロビジョニングする。Amazon Redshift Spectrumは、データをロードせずにAmazon S3内のエクサバイト規模のデータをクエリできる。Amazon Redshiftはエンタープライズスケールの構造化データに対する複雑な結合と集計に優れる。

Amazon EMR — マネージドHadoop・Spark・Hive・Presto

Amazon EMRはEC2・Amazon EKS・AWS Outposts・またはAmazon EMR Serverless上でApache Spark・Apache Hadoop・Apache Hive・Presto・Apache HBase・Apache Flinkを実行するマネージドビッグデータAWSアナリティクスサービスだ。Sparkジョブ・大規模ETL・機械学習の前処理に対してコードレベルの完全な制御が必要な場合にAmazon EMRを使用する。

Amazon Kinesis — リアルタイムストリーミング

Amazon Kinesisは三つのストリーミングAWSアナリティクスサービスのファミリーだ。

Amazon Kinesis Data Streams——プロデューサーとコンシューマーAPIを持つ耐久性のあるリアルタイムレコードストリーム。独自のコンシューマー（AWS Lambda・Amazon Kinesis Client Library・AWS Glueストリーミング）を作成する。保持期間1〜365日。シャードごとに順序付け。
Amazon Data Firehose（旧Kinesis Data Firehose）——完全マネージドなノーコード配信パイプライン。ストリームを取り込み、Amazon S3・Amazon Redshift・Amazon OpenSearch Service・Splunk・HTTPエンドポイントなどへ届け、オプションでAWS Lambdaによるインライン変換とApache Parquet形式への変換を実行する。
Amazon Managed Service for Apache Flink（旧Kinesis Data Analytics）——リアルタイム分析とストリーミングSQLのためのマネージドApache Flink。

CLF-C02で最も試験に出るAmazon Kinesisの罠だ。Amazon Kinesis Data Streamsはカスタムリアルタイム処理用——コンシューマーを自分でコーディングする。Amazon Data Firehoseはコードなしの配信用——Amazon S3・Amazon Redshift・Amazon OpenSearch Serviceにデータを自動的にロードし、ニアリアルタイム（バッファリングあり）だ。シナリオに「コードなしでS3に直接配信する」と書かれていればAmazon Data Firehoseを選ぶ。「Lambdaを使ったカスタムコンシューマー」または「サブ秒レイテンシ」と書かれていればAmazon Kinesis Data Streamsを選ぶ。出典: https://docs.aws.amazon.com/firehose/latest/dev/what-is-this-service.html

Amazon MSK — Managed Streaming for Apache Kafka

Amazon MSKは完全マネージドのApache Kafkaクラスターを提供する。組織がすでにKafkaの専門知識またはKafkaベースの統合を持つ場合にAmazon MSKを選ぶ。Amazon MSK Serverlessはブローカーのサイジングをなくす。Amazon MSK ConnectはKafka Connectワーカーを実行する。

Amazon OpenSearch Service — 検索とObservability

Amazon OpenSearch ServiceはOpenSearch（ElasticsearchのApache 2.0フォーク）のためのマネージドAWSアナリティクスサービスだ。ユースケース：ログ分析・アプリケーション検索・フルテキスト検索・セキュリティイベント分析（SIEM）・OpenSearch Dashboards（Kibanaのフォーク）によるObservabilityダッシュボード。

AWS Glue — サーバーレスETLとデータカタログ

AWS Glueはサーバーレスのイベントドリブン型ETL AWSアナリティクスサービスだ。Glue Crawlersでスキーマを自動検出し、AWS Glueデータカタログ（Amazon Athena・Amazon EMR・Amazon Redshift Spectrumが使用）にメタデータを保存し、Apache SparkまたはPythonシェルでETLジョブを実行する。AWS Glue DataBrewはビジュアルなノーコードデータ準備ツールだ。AWS Glue Studioはローコードのビジュアルなイベントドリブン型ETLデザイナーだ。

Amazon QuickSight — BIダッシュボード

Amazon QuickSightはサーバーレスのビジネスインテリジェンスAWSアナリティクスサービスだ。Enterpriseエディションではセッション単位の課金。Amazon QuickSight Q（現在はAmazon Q in QuickSightに強化）は、チャートを自動生成する自然言語の質問をサポートする。Amazon QuickSight SPICEは高速なダッシュボードのためにデータをキャッシュするインメモリエンジンだ。

AWS Lake Formation — データレイクガバナンス

AWS Lake FormationはAmazon S3上のデータレイクをセットアップし保護する。AWS GlueデータカタログをAmazon Athena・Amazon Redshift Spectrum・Amazon EMR・AWS Glue全体にわたって使用し、きめ細かなアクセス制御（行・列・セルレベル）を一元化する。AWS Lake Formationは「データレイク内の誰が何のデータを見られるか」に答えるAWSアナリティクスサービスだ。

比較表（試験の高得点ポイント）

Amazon AthenaとAmazon Redshift

比較軸	Amazon Athena	Amazon Redshift
データの場所	Amazon S3への直接アクセス	Amazon Redshiftストレージ（またはAmazon S3上のRedshift Spectrum）
価格	スキャンしたTB単位	ノード時間またはRedshift Serverless RPU
最適な用途	生ファイルへのアドホックSQL	複雑な定期OLAPレポート
セットアップ	サーバーレス、クラスター不要	プロビジョニングされたクラスター（またはサーバーレス）
スケール	ペタバイト（スキャン課金）	ペタバイト、チューニングされたインデックス

Amazon S3データのまれな探索にはAmazon Athenaを選ぶ。BIツール接続を持つ継続的な高性能分析ワークロードが必要な場合はAmazon Redshiftを選ぶ。

Amazon Kinesis Data StreamsとAmazon Data Firehose、Amazon MSKの比較

比較軸	Kinesis Data Streams	Data Firehose	Amazon MSK
パラダイム	カスタムストリームコンシューマー	ノーコード配信	マネージドApache Kafka
レイテンシ	サブ秒	約60秒（バッファ）	サブ秒
コード必要性	あり（コンシューマー）	最小限	あり
宛先	任意（自分で記述）	S3・Redshift・OpenSearch・Splunk	任意のKafkaコンシューマー
最適な用途	リアルタイムカスタムアプリ	ストリームからウェアハウスへのETL	Kafkaネイティブ組織

Amazon LexとAmazon Bedrock

Amazon Lexはインテントとスロットを持つ構造化チャットボット向けに特化して構築されている。Amazon Bedrockはファウンデーションモデルを通じて自由形式のテキストを生成する。現代的なパターンとして、ダイアログのオーケストレーションにAmazon Lexを使い、生成フォールバックレスポンスにAmazon Bedrockを組み合わせる方法がある。

重要な数値と暗記事項

Well-Architected MLピラー：Amazon SageMakerは同じAWS Well-Architectedの原則に従うが、お客様がモデルデータとコードを所有する（責任共有）。
Amazon Bedrockの保持：お客様のプロンプトと完成コンテンツはベースのファウンデーションモデルの訓練に使用されない。
Amazon Kinesis Data Streamsの保持期間：デフォルト24時間、最大365日まで設定可能。
Amazon Data Firehoseのレイテンシ：通常約60秒（バッファサイズ/インターバルは設定可能）。
Amazon Redshiftのストレージ：クラスターあたりペタバイト（RA3ノードタイプはストレージとコンピュートを分離）。
Amazon Athenaのコストモデル：オンデマンドでスキャンしたTBあたり5ドル（Parquet/ORCで大幅にコスト削減可能）。
Amazon QuickSightの価格：ユーザー単位（Standard/Enterprise）およびセッション単位（Enterprise）。
Amazon Rekognition：保存済み画像・保存済み動画・ストリーミング動画（Amazon Kinesis Video Streams経由）をサポート。
Amazon Transcribe：リアルタイム（ストリーミング）とバッチ変換の両方をサポート。
AWS GlueデータカタログHive互換：Amazon Athena・Amazon EMR・Amazon Redshift Spectrum間で共有。

頻出の試験の罠

Amazon SageMaker対Amazon Bedrock：訓練と呼び出しの違い。「事前訓練済みファウンデーションモデル」「生成AI API」の問題はAmazon Bedrock。「カスタムモデルを構築・訓練・デプロイする」の問題はAmazon SageMaker。
Amazon Athena対Amazon Redshift：直接S3 SQLとOLAPデータウェアハウスの違い。「S3ログファイルへのアドホックSQL」はAmazon Athena。「BIダッシュボード用にキュレーションされたスタースキーマにまたがる複雑な結合」はAmazon Redshift。
Kinesis Data Streams対Data Firehose：コードとノーコードの違い。「コンシューマーコードなしでS3に配信する」はAmazon Data Firehose。「AWS Lambdaで各レコードをミリ秒以内に処理する」はAmazon Kinesis Data Streams。
Amazon Lex対Amazon Bedrock：構造化チャットボットと自由形式の生成の違い。「インテントを持つ音声・テキストボット」はAmazon Lex。「テキストの要約または創造的なテキストの生成」はAmazon Bedrock。
Amazon Rekognition対Amazon Textract：画像とドキュメントの違い。「写真の人物を検出する」はAmazon Rekognition。「請求書PDFからフィールドを抽出する」はAmazon Textract。
Amazon Comprehend対Amazon Kendra：NLP抽出と検索の違い。「感情・エンティティ・PII」はAmazon Comprehend。「SharePointとS3全体から正しいドキュメントを探す」はAmazon Kendra。
Amazon EMR対AWS Glue：DIY Sparkとサーバーレスの違い。「カスタムコードを実行するSpark開発者がいる」はAmazon EMR。「クローラーとデータカタログを使った運用不要のETL」はAWS Glue。
Amazon MSK対Kinesis：KafkaエコシステムとAWSネイティブストリーミングの違い。「すでにApache Kafkaを使っている」はAmazon MSK。「AWSネイティブのシンプルさが欲しい」はAmazon Kinesis。
Amazon Q Business対Amazon Q Developer：ビジネスユーザーと開発者の違い。社内文書に対して質問する非技術ユーザーはAmazon Q Business。IDE内のコード提案はAmazon Q Developer。

Amazon Kendraは自然言語の質問を理解し、多数のコネクタにまたがるエンタープライズコンテンツに最適化されたマネージドAI/ML検索サービスだ。Amazon OpenSearch Serviceはマネージドな検索・分析エンジン（Elasticsearchのフォーク）——クラスターを運用し、インデックスを定義し、クエリを書く。問題が「社内ドキュメントへの自然言語質問応答」を強調していれば、Amazon Kendraを選ぶ。「カスタム検索インデックスの構築またはログ分析ダッシュボード」を強調していれば、Amazon OpenSearch Serviceを選ぶ。出典: https://docs.aws.amazon.com/kendra/latest/dg/what-is-kendra.html

生成AI問題は+35%増加している。最近のCLF-C02受験では少なくとも一つのAmazon BedrockまたはAmazon Qの問題が含まれている。このセクションをスキップしてはいけない。覚えておくこと：Amazon Bedrock＝ファウンデーションモデルへのAPI；Amazon Q＝事前構築済みAIアシスタント（Business・Developer・QuickSight内・Connect内）。この二つのサービスは2024〜2026年のCLF-C02試験で最も価値の高い追加事項だ。出典: https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html

AI/MLサービスとその他サービスカテゴリの境界 — タスク3.8との区分

タスク3.7はAI/MLとアナリティクスをカバーする。タスク3.8はその他すべてをカバーする——アプリケーション統合（Amazon SQS・Amazon SNS・Amazon EventBridge）・開発者ツール（AWS CodePipeline）・エンドユーザーコンピューティング（Amazon WorkSpaces）・IoT（AWS IoT Core）。一つの摩擦ポイントがある：Amazon Kinesis Video StreamsはAmazon Rekognition（AI/ML）と一緒に参照されることがあるが、技術的にはストリーミングファミリー（アナリティクスに近い）に位置する。試験では、Amazon Kinesis Video StreamsをAmazon Rekognitionにフィードできるアナリティクス取り込みサービスとして扱うこと。

もう一つの境界：Amazon OpenSearch Serviceは検索バックエンドまたはObservabilityツールとして機能できる。シナリオがセキュリティイベント分析であっても、セキュリティドメイン（ドメイン2）ではなく、AWSアナリティクスサービスに位置づける。

練習問題リンク — タスク3.7対応シナリオ

シナリオ1：マーケティングチームが翻訳担当者を雇わずに商品説明を12言語に翻訳したい。正解：Amazon Translate。

シナリオ2：開発者がAnthropic Claudeを使ったモバイルアプリにチャット体験を追加したい。正解：Amazon Bedrock。

シナリオ3：データサイエンスチームが不正検知モデルのためにJupyterノートブック・分散訓練・マネージドデプロイが必要だ。正解：Amazon SageMaker。

シナリオ4：銀行がスキャンしたローン申請書からフィールドを抽出したい。正解：Amazon Textract。

シナリオ5：SaaS企業がウェブサイトからのクリックストリームイベントをニアリアルタイムのバッファリングでコードなしにAmazon S3に配信したい。正解：Amazon Data Firehose。

シナリオ6：アナリストがAmazon S3に保存されたJSONログに対してクラスターをプロビジョニングせずにアドホックSQLクエリを実行したい。正解：Amazon Athena。

シナリオ7：BIチームが自然言語の質問応答を持つインタラクティブなダッシュボードを構築したい。正解：Amazon QuickSight（Amazon Q in QuickSight付き）。

シナリオ8：企業がSharePoint・Salesforce・Amazon S3全体を従業員が平易な言葉で検索できるようにしたい。正解：Amazon Kendra。

シナリオ9：オペレーションチームが夜次BIのためにペタバイトスケールのスタースキーマにまたがる複雑な結合を実行する必要がある。正解：Amazon Redshift。

シナリオ10：メディア企業がユーザーがアップロードした動画内の安全でないコンテンツを検出したい。正解：Amazon Rekognition。

FAQ — AWS AI/MLとアナリティクスサービスのよくある質問

1. Amazon BedrockとAmazon SageMakerの違いは何か？

Amazon Bedrockは生成AI向けに事前訓練済みファウンデーションモデル（Claude・Llama・Titan・Mistralなど）へのAPIアクセスを提供する——訓練不要。Amazon SageMakerは独自のカスタムモデルを構築・訓練・デプロイするためのエンドツーエンドAWS AI/MLプラットフォームだ。モデルを訓練したくない場合はAmazon Bedrockを使う。コードレベルで独自データを使った訓練またはファインチューニングが必要な場合はAmazon SageMakerを使う（Amazon SageMaker JumpStartもファインチューニング向けにいくつかのファウンデーションモデルを公開している）。CLF-C02試験では「ファウンデーションモデル」または「生成AI」に言及する問題はほぼ常にAmazon Bedrockに対応する。

2. Amazon AthenaとAmazon Redshiftはいつ使い分けるか？

データがすでにAmazon S3にあり、クエリがアドホックまたは不定期で、インフラゼロを望む場合はAmazon Athenaを選ぶ。継続的なOLAPパフォーマンス・複雑な結合・マテリアライズドビュー・数百人のアナリストのためのBIツール接続が必要な場合はAmazon Redshiftを選ぶ。Amazon Athenaの価格はスキャンしたTB単位——少量・不定期クエリは安価だが、繰り返しのフルテーブルスキャンは高価になる。Amazon Redshiftはノード時間単位（またはRedshift Serverless RPU）——継続的な大量ワークロードでは安価になる。

3. Amazon Kinesis Data StreamsとAmazon Data Firehoseは同じものか？

いいえ。Amazon Kinesis Data Streamsは独自のコンシューマー（AWS Lambda・Amazon Kinesis Client Library・AWS Glueストリーミング）を記述する耐久性のあるリアルタイムストリームだ。Amazon Data FirehoseはニアリアルタイムのバッファリングでAmazon S3・Amazon Redshift・Amazon OpenSearch Service・またはSplunkにストリームを自動的に書き込むノーコード配信パイプラインだ。問題に「カスタムリアルタイム処理」と書かれていればAmazon Kinesis Data Streamsを選ぶ。「コードなしで宛先に直接配信する」と書かれていればAmazon Data Firehoseを選ぶ。

4. Amazon Qとは何か、Amazon Bedrockとはどう違うか？

Amazon Qは事前構築済みAIアシスタントのファミリーだ（エンタープライズQ&A向けAmazon Q Business・コーディング向けAmazon Q Developer・BI向けAmazon Q in QuickSight・エージェント支援向けAmazon Q in Connect）。Amazon BedrockはAPIを通じて生のファウンデーションモデルにアクセスするための基盤となるAWS AI/MLサービスだ。Amazon Qは既製品のアシスタントを通じて非技術ユーザーが触れるもの、Amazon Bedrockは開発者が独自の生成AIアプリを構築するためにコードから呼び出すものだ。Amazon Qを完成した自動車、Amazon Bedrockをそのエンジンとして考えるとよい。

5. OCRにはどのAWS AI/MLサービスを使うべきか？

ドキュメント・フォーム・表からのOCRと構造抽出にはAmazon Textractを使う。Amazon Textractはキーと値のペア・テーブルセル・関係性を保持するため、汎用OCRよりも優れている——請求書・税務フォーム・身分証明書・医療記録に最適だ。画像のみのプレーンテキストOCR（標識など）はAmazon Rekognitionの画像内テキスト検出でも対応できるが、ドキュメント指向のユースケース（領収書・PDF・フォーム）はAmazon Textractを選ぶこと。

6. Amazon Athenaをすでに使っているのにAWS Glueは必要か？

多くの場合は必要だ——Amazon AthenaはAWS Glueデータカタログをデフォルトのメタデータストアとして使用する。AWS GlueクローラーはAmazon S3内のスキーマを自動検出し登録するため、Amazon Athenaはどの列が存在するかを知ることができる。AWS Glue ETLジョブはデータをApache Parquetのような列指向フォーマットに変換し、Amazon Athenaのスキャンコストを大幅に削減する。CLF-C02では覚えておくこと：AWS Glue＝サーバーレスETL＋データカタログ；Amazon Athena＝サーバーレスSQL。両者は補完的であり、競合するものではない。

7. AWS AI/MLサービスはAWS責任共有モデルの対象か？

はい。AWSはAI/MLサービスのセキュリティを所有する（インフラ・マネージドモデルホスティング・パッチ適用）。お客様はサービス内のセキュリティを所有する（訓練データの保護・IAMポリシー・プロンプトコンテンツ・モデルアーティファクト・APIキー管理）。これはAmazon RDSのような他のマネージドサービスと同一だ。Amazon Bedrockを使った生成AIでは、お客様のプロンプトと完成コンテンツはファウンデーションモデルの訓練に使用されない——試験シナリオで頻繁に出るコンプライアンス上の懸念事項だ。

参考リンク

Amazon SageMaker デベロッパーガイド — エンドツーエンドMLワークフロー。https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
Amazon Bedrock ユーザーガイド — ファウンデーションモデルとRAG。https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html
Amazon Q Business ユーザーガイド — エンタープライズAIアシスタント。https://docs.aws.amazon.com/amazonq/latest/qbusiness-ug/what-is.html
Amazon Athena ユーザーガイド — S3上のサーバーレスSQL。https://docs.aws.amazon.com/athena/latest/ug/what-is.html
Amazon Redshift 管理ガイド — データウェアハウス。https://docs.aws.amazon.com/redshift/latest/mgmt/welcome.html
Amazon Kinesis Data Streams デベロッパーガイド。https://docs.aws.amazon.com/streams/latest/dev/introduction.html
AWS Glue デベロッパーガイド — ETL＋データカタログ。https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html
AWS認定クラウドプラクティショナー試験ガイド v1.0。https://d1.awsstatic.com/training-and-certification/docs-cloud-practitioner/AWS-Certified-Cloud-Practitioner_Exam-Guide.pdf

まとめ

AWS AI/MLサービスは三つのTierに分かれる：Amazon SageMaker（カスタムML）・Amazon BedrockとAmazon Q（生成AI）・タスク特化型API（Amazon Rekognition・Amazon Comprehend・Amazon Textract・Amazon Transcribe・Amazon Polly・Amazon Translate・Amazon Lex・Amazon Personalize・Amazon Forecast・Amazon Kendra）。AWSアナリティクスサービスは取り込み（Amazon Kinesis・Amazon MSK）・保管とカタログ化（Amazon S3＋AWS GlueデータカタログとAWS Lake Formation）・処理（Amazon Athena・Amazon EMR・AWS Glue）・ウェアハウジング（Amazon Redshift）・検索（Amazon OpenSearch Service）・BI（Amazon QuickSight）に分かれる。CLF-C02では名詞とサービスのマッピングを認識し、SageMakerとBedrockのルールを覚え、Amazon Kinesis Data StreamsとAmazon Data Firehoseを決して混同しないこと。AWS AI/MLサービスの試験問題が+25%増加しているトレンドと生成AIシグナルが+35%上昇していることを踏まえると、CLF-C02受験前にマスターすべきドメイン3で最もROIが高いトピックだ。

AWS AI/MLとアナリティクスサービスとは何か？

AI/MLとアナリティクスサービスがCLF-C02で重要な理由

やさしい解説: AWS AI/MLサービスとアナリティクスサービスは難しそうに聞こえるが、三つの平易な類比でその仕組みが腑に落ちる。

類比1 — 大学食堂の厨房ライン（調理場パターン）

類比2 — 十三枚刃のスイスアーミーナイフ（多機能刃パターン）

類比3 — 宅配便の仕分けセンター（郵便システムパターン）

基本動作原理 — 事前構築済みAI API・カスタムML・生成AI

事前構築済みとカスタムの判断ツリー

生成AIサービス — Amazon BedrockとAmazon Q

Amazon Bedrock

Amazon Q

カスタムMLプラットフォーム — Amazon SageMaker

事前構築済みAI/ML API — タスク別サービスカタログ

Amazon Rekognition — 画像と動画の分析

Amazon Comprehend — 自然言語処理

Amazon Textract — ドキュメントOCRとフォーム・表の構造抽出

Amazon Transcribe — 音声テキスト変換

Amazon Polly — テキスト音声変換

Amazon Translate — ニューラル機械翻訳

Amazon Lex — 会話チャットボット

Amazon Personalize — リアルタイム推薦

Amazon Forecast — 時系列予測

Amazon Kendra — エンタープライズ検索

AWSアナリティクスサービス — フルスタック

Amazon Athena — Amazon S3上のサーバーレスSQL

Amazon Redshift — ペタバイトスケールのデータウェアハウス

Amazon EMR — マネージドHadoop・Spark・Hive・Presto

Amazon Kinesis — リアルタイムストリーミング

Amazon MSK — Managed Streaming for Apache Kafka

Amazon OpenSearch Service — 検索とObservability

AWS Glue — サーバーレスETLとデータカタログ

Amazon QuickSight — BIダッシュボード

AWS Lake Formation — データレイクガバナンス

比較表（試験の高得点ポイント）

Amazon AthenaとAmazon Redshift

Amazon Kinesis Data StreamsとAmazon Data Firehose、Amazon MSKの比較

Amazon LexとAmazon Bedrock

重要な数値と暗記事項

頻出の試験の罠

AI/MLサービスとその他サービスカテゴリの境界 — タスク3.8との区分

練習問題リンク — タスク3.7対応シナリオ

FAQ — AWS AI/MLとアナリティクスサービスのよくある質問

1. Amazon BedrockとAmazon SageMakerの違いは何か？

2. Amazon AthenaとAmazon Redshiftはいつ使い分けるか？

3. Amazon Kinesis Data StreamsとAmazon Data Firehoseは同じものか？

4. Amazon Qとは何か、Amazon Bedrockとはどう違うか？

5. OCRにはどのAWS AI/MLサービスを使うべきか？

6. Amazon Athenaをすでに使っているのにAWS Glueは必要か？

7. AWS AI/MLサービスはAWS責任共有モデルの対象か？

参考リンク

まとめ

公式ソース

その他の CLF-C02 トピック