目次

Amazon Pollyとは?使い方やメリットを徹底解説!

この記事は広告を含みます。詳しくはコンテンツ制作ポリシーをご覧ください。

近年ではAI技術の発展により、さまざまなシーンでAIが活用されるようになりました。この記事では、AWSが提供するAI音声合成サービス「Amazon Polly」について紹介しています。Amazon Pollyの基本知識から、使い方、メリットや料金などもまとめているので、読み上げ機能を搭載したAIの導入を考えている人はぜひ参考にしてみてください。

Amazon Pollyとは?

出典:Amazon Polly

Amazon Pollyは、ディープラーニングによる学習モデルを使用してテキストの情報を音声へと変換するサービスです。これまでもテキストを音声に変換するソフトはたくさんありましたが、Amazon Pollyはより人間の声に近い音声を合成できるサービスとして注目を集めています。

幅広い言語に対応しており、日本語だけでなくさまざまな言語をまるで人間が話しているかのように読み上げることが可能です。特に英語に関しては、世界中で最も多く使用されているアメリカ英語はもちろん、イギリス英語やオーストラリア英語などに細分化されており、それぞれの特徴を表した読み上げができます。

音声には標準音声の他にニューラル音声が用意されており、ニューラル音声は標準音声のように音声の合成をしないので、高音質の音声に仕上がるのがポイントです。

なお、各言語の話者は62種類の声質から選ぶことができ、それぞれ音声IDが割り振られています。ほとんどの言語に男性と女性の話者が提供されているため、サービスの内容に合わせて適した話し手を選べるでしょう。

Amazon Pollyの詳しい仕組みは、以下の通りです。

入力テキスト

音声を生成したいテキストを入力すると、それをAmazon Pollyが音声ストリームとして返します。入力方法は、プレーンテキストもしくは音声合成マークアップ言語 (SSML) 形式に対応しています。

SSML形式の場合は、発音からボリュームや話す速度、ピッチにいたるまでありとあらゆる要素を制御できます。テキストのなかに長時間の一時停止を追加する、特定のフレーズを強調する、呼吸音やウィスパーを追加するなどのオプションが利用できるため、より高品質かつ人間に近い発音が可能です。

音声の生成

Amazon Polly には、英語とヒンディー語のバイリンガル音声を含む言語とポートフォリオが搭載されています。音声IDを選んで音声合成タスクを起動するだけで、送信したテキストが音声へと変換されます。

なお、Amazon Pollyはあくまでも入力されたテキストを読み上げるためのシステムのです。翻訳機能はついていないので、他の言語に変換したい場合には別の方法を検討する必要があります。

出力形式

Amazon Pollyは、生成した音声をさまざまな形式で出力できます。ウェブやモバイルアプリでもよく使用されるMP3やVorbis 形式はもちろん、自動音声電話案内サービスやIoTサービス用にPCM 出力形式を選択することも可能です。

利用にはAWSアカウントの取得が必要

Amazon Pollyを使うには、AWSアカウントを取得しなければなりません。システムの提供元がAmazonのため、Amazonアカウントを持っていれば使えると認識している人も多いかもしれませんが、AWSアカウントとAmazonアカウントは全く別物です。

AWSアカウントを持っていれば、Amazon Pollyだけでなくサーバーや画像認識、IoTシステムの構築などのサービスも利用できるため、特にウェブ開発に携わる人は取得していて損はないでしょう。

ここからはAWSアカウントの取得方法を解説していきます。

事前準備を行う

AWSアカウントの取得には、メールアドレスとクレジットカードの情報が必須です。メールアドレスについては、1つのアドレスで1つのアカウントを作れます。これまでに登録したことがあるメールアドレスは使用できないので注意しましょう。

クレジットカードに関しては支払い情報として登録が必要で、デビットカードも選択できます。アカウント自体は無料で作成できます。

AWSアカウント情報の入力

AWSアカウント作成ページで、使用言語やメールアドレス、AWSアカウント名やパスワードなどのアカウント情報を入力します。AWSログイン時に使うrootユーザパスワードも設定するので忘れないよう管理してください。これらが完了したら、次に連絡先情報と請求情報を入力し、利用規約に同意のうえ「確認して次へ」のボタンを押下します。

本人確認を行う

アカウント作成に必要な情報の入力が終わると、本人確認のページへ遷移します。本人確認はSMS認証と音声電話2種類があるため、希望する検証コードの受け取り方法と国コード、電話番号を入力してください。

「SMSを送信」を押下し、SMSや電話で届いた4桁の検証コードを入力すると本人確認が完了します。

AWSサポートプランの選択

最後に利用するプランの選択を行いましょう。AWSサポートプランは、無料と有料の2種類があり、有料はさらに複数のプランに分かれます。プランによってサポート可能なユーザー数や対応の速さなどが異なるので、目的や用途に合うものを選んでください。これでAWSアカウントの作成が完了します。

3000字以内は即ダウンロードが可能

Amazon Pollyは、Webページでテキストを入力後にダウンロードボタンを押下するだけで音声データを作成できるのが魅力です。なお、テキストが3,000文字以内の場合、「synthesize_speech」メソッドを用いて音声ファイルを即ダウンロードできます。戻り値を素早く取得できるので、リアルタイムで音声情報を作成したいという場合にも利用しやすいでしょう。

一方で、3,001文字以上10,000文字以内のテキストから音声を生成したい場合は、「start_speech_synthesis_task」をはじめとした非同期合成システムを使用します。生成された音声ファイルはAmazon S3 バケットへ直接アップロードされるため、Amazon Simple Storage Service (Amazon S3) バケットのインストールを忘れずに行いましょう。

なお、出力ファイルは256 ビットの高度暗号化規格で暗号化されるなど、セキュリティも万全です。

データはチューニングも可能

Amazon Pollyはテキストを入力するだけでもある程度自然に読み上げられますが、任意のテキストを入力することでより違和感のない音声へ仕上げることが可能です。特に日本語は他の言語と比べて書記体系が複雑なので、TTSにおいて課題が多い言語とされています。

日本語の書記体系は、ひらがな、カタカナ、漢字の3種類で構成されており、漢字はさらに音読みと訓読みに分けられるうえ、当て字や人名、地名などについては文字列から発音を予測しにくい場合があります。

Amazon Pollyはこれらの困難に対処できるよう、TTSシステムにおいて複数の機能学習モデルを採用しています。具体的に、周囲の単語や文法、単語構造に関する情報から発音や高低アクセントを予測し、違和感のない発音を実行しています。

また、ユーザー自身が正しい発音を合成することも可能です。最適化の方法には、以下の3通りがあります。

単語の区切りを指定する

Amazon Pollyによると、単語の区切りを示すだけで、発音を最適化できる場合があります。例として、「東京都」は「とうきょうと」と読むのが一般的ですが、「京都の東部」を指す「ひがしきょうと」とも読めるでしょう。

出典:Amazon Polly

テキスト読み上げ機能は、使用頻度の高い「とうきょうと」がデフォルトの発音になっているケースがほとんどです。しかし、Amazon PollyならSSMLタブで単語境界タグを適用することで、発音を自由にカスタマイズできます。

振り仮名を設定する

合成したい言葉が単一の単語・文字から成る場合、単語の区切りを指定するよりも振り仮名を設定する方がおすすめです。文脈がなく正しい発音を予測できない場合、仮名表記で読み方を示しましょう。

ただし、テキスト側にも振り仮名が表示されてしまうため、用途によっては不適切な場合があります。また、「赤」という漢字に「くろ」と振り仮名を当てるなど、漢字の読み方と明らかに異なる振り仮名は認識されません。そのため、標準的でない読み方の地名や人名、当て字などに対しては使えないので、別の方法でチューニングを行ってください。

発音仮名を使用する

アクセントを細かく設定する際は、発音仮名を使うのが有効です。他の方法では難しい助詞の発音も最適化できますし、振り仮名を振る方法のようにテキストに情報が反映される心配もありません。

なお、アクセントは各単語に最大1つ設定できます。1つの単語に複数のアクセントを付けたい場合は、発音仮名をスペースやタグで区切る必要があります。

Amazon Pollyの活用用途

テキストを音声データに変換するAmazon Pollyには、以下のような使い道があります。

動画のナレーション

Amazon Pollyは、セミナーやマニュアル動画など、あらゆる動画の音声読み上げに活用できます。自然な発音ができるので、情報を伝えるのに適しているでしょう。字幕を入れれば音声情報ともに文字情報も伝えられるため、マーケティングなど商用利用にもおすすめです。

自動音声サービス

留守電や企業の自動応対などは、人間の録音で対応すると、イントネーションや声量にバラつきが生じてしまいます。しかし、Amazon Pollyは一定の音声や速度でテキストを読み上げるため、いつでも高品質なアウトプットが可能。業務の効率化に寄与すること間違いありません。

コンテンツの多言語対応

これまで、場内アナウンスや動画の多言語対応は、各言語のネイティブスピーカーが担当する業務でした。しかし、近年では音声読み上げシステムの登場により、スクリプトを使って簡単に多言語対応ができるようになっています。

ただし、前述した通りAmazon Pollyは入力したテキストを読み上げるだけで、入力した文章を他の言語に変換する機能は搭載していません。多言語対応に使用する場合は、あらかじめ翻訳した文章を入力しなければならないため注意が必要です。

利用するメリット

Amazon Pollyには、さまざまなメリットがあります。そのメリットを整理して解説します。

直感的に操作できる

Amazon Pollyの操作画面は非常にシンプルです。テキストを入力するだけでサンプル音声が生成されるため、複雑な手順を踏まずにテキスト作成、音声変換、データダウンロードができます。アプリでダイレクトストリーミングを行うこともオーディオ形式として保存するのもボタン1つで可能なので、他のソフトと比較して使いやすいです。

さまざまな音声や言語を選択できる

Amazon Pollyは、標準的な読み上げ(NTTS)音声だけでなくリアルな音声も生成できます。人間が話しているような声を実現するために、ロングフォーム音声で音声品質の向上を図っているのもポイント。

日本語や英語、フランス語やイタリア語といったメジャーな言語だけでなく、カタルーニャ語やウェールズ語などほとんどの言語に対応しています。そのため、Amazon Pollyだけでさまざまな言語を音声化できるでしょう。

複数のオーディオ形式に対応している

ほぼリアルタイムでオーディオストリーミングができるAmazon Pollyは、画面遷移をせずにMP3形式でデータを保存できます。そのほかにもVorbisやraw PCMといったオーディオストリーム形式に対応しているため、用途や容量に合わせて最適なものを選択できるでしょう。

SSMLタグのサポート機能を搭載

本読み上げをより自然な仕上がりにするためには、SSMLタグを利用したチューニングが必要です。Amazon Pollyではより高度な音声コントロールができるよう、SSMLタグのサポート機能を搭載しています。

この機能を使えば、読み上げの速さや段落間の一時停止、発音タイミングや声質などを自由自在にコントロール可能なため、カスタマイズにこだわりたいと思っている人でも十分満足できるでしょう。

Amazon Connectでも標準利用できる

Amazon Pollyは、クラウド型コールセンターサービスであるAmazon Connectでも利用できます。Amazon ConnectとはAWSの提供するサービスで、コールセンターの業務に欠かせない機能を利用でき、応対フローなども設定可能です。Amazon Pollyは特に、自動音声案内の作成に効果を発揮するでしょう。

デフォルトの音声なら無料で使用できますし、Amazonコンソールで音声の追加も可能です。カスタムボイス以外は料金が発生しないので、コストを抑えたコールセンター運用を希望する人にも向いています。

Amazon Pollyの料金

Amazon Pollyは従量課金制を導入しており、処理したテキストの文字数によって1ヶ月毎に課金されます。標準音声の料金は、処理文字数100万字あたり4ドルです。また、より高品質な音声でデータを作成したい人へ向けて、ニューラルプランといった有料プランも用意しており、こちらは100万字あたり16ドルで利用できます。

ロングフォーム音声を生成できるプランは、100万字あたり100ドルで利用可能です。なお、ニューラルプランならびにロングフォームプランは、無料利用枠を超えた段階で料金が発生するため、枠を超えなければその月は課金対象となりません。

Amazon Pollyで音声サービスの幅を広げよう!

Amazon Pollyは複数の言語を音声データに変換できるサービスです。共通語として存在する英語は、地域ごとに異なる発音にも対応できるよう細かく分類されています。また、テキスト入力だけでもある程度自然な発音を実現できますが、SSMLによって単語ごとにアクセントや呼吸音を付けられるのもポイントです。

基本無料で利用できるうえ日本でも多くの導入実績があるため、商用利用を検討している企業の担当者の方は、ぜひ一度試してみてはいかがでしょうか。

※本記事に掲載している情報は、記事更新時のものになります。価格が変動している場合や在庫切れしている場合があるため、最新の価格や商品詳細については各販売店やメーカーにてご確認ください。

※記事経由で商品を購入すると、売上の一部がクラシル比較に還元されることがあります。

この記事に関連するおすすめ記事

Amazon入門ガイドのカテゴリー

その他のAmazonお得情報カテゴリー

新着記事

カテゴリー