Google,Microsoft,IBM各社のSpeech To Textなサービスの比較をしてみました

Pocket

こんにちは!前回で作成したデータを元に、今度は、以下の3サービスの通話内容を比較してみました!

  • Google Cloud Speech API
  • IBM Watson Speech to text
  • Micrsoft Azure Bing Speech API

なお、Amazonも試したかったのですが、現状はまだ日本語未対応ということで、今回は見送りしました。。。

やったこと

上記3つのSpeech to TextなAPIサービスを、Twilioで録音した3つの音源でそれぞれテキスト化を試み、エクセルで並べて比較しました。

なお、Bing Speech APIについては、音声データが14秒までという制限があるため、14秒以上の音声ファイルがあったものについては冒頭の14秒のみの比較になっています。

留意点

各社のサービスで入力している音声ファイルについては、TwilioのMP3をそれぞれのサービスに合う形で変換しています。(多少の周波数の劣化はあるかもしれません)

  • Google Cloud Speech API → MP3ファイルそのまま
  • IBM Watson Speech to text →MP3ファイルをflacファイルに変換
  • Micrsoft Azure Bing Speech API →MP3ファイルをWAVファイルに変換

また、Twilioが電話による音声データという制限上、周波数が8,000ヘルツ程度となってしまい、例えばGoogleのおすすめする周波数帯には届かないといった課題もあります。

これらの音声ファイル上の工夫をすることによって、APIからの結果が向上される可能性は十分にあります。が、今回は単純にとってきたデータをそのまま使ってみることにしました。

結果

さっそく結果を共有してみます!(画像が見にくかったら、ごめんなさい!)
詳細はこちら(GoogleDrive)より確認することができます。

①「一般回線×一般回線」(Twilio VOICE × Twilio VOICE)

②「IP電話×IP電話」(Twilio CLIENT × Twilio CLIENT)

③「一般回線×IP電話」(Twilio VOICE × Twilio CLIENT)

総論

ざっと見た限りだと、Google Cloud Speech APIが一番精度良いかな、という感想です。ただ、音声を拾ってくれてない箇所も何箇所かありますね。
Bing Speech APIも所々精度の良さは感じますが、14秒制限がある分、片手落ちな感じはありますね。
Watsonは、うーん、どうなんでしょうか。音声を拾ってきてくれてることには間違いなさそうですし、声に出してみたときに近しい言葉を返してきてくれてるようですが、テキストだけ読むと何が何やらというのが正直なところです。

とはいえ、音声データの品質向上を行い、機械・人による学習や編集を行うことで、精度はもっと向上できそうですね!

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です