音声認識

概要

このブロックは、Cloud Speech-to-Text APIopen_in_newを使用して、Google Cloud Storage（GCS）open_in_new上の音声データをテキストデータに変換します。テキストデータは、変数に格納されます。

error_outline 情報

GoogleからCloud Speech-to-Text APIを効果的に使用するためのガイドライン"Best Practicesopen_in_new"が公開されています。このブロックを使用する前に、一読をお薦めします。

warning 注意

セルフサービスプランの場合は、このブロックを使用する前に、Cloud Speech-to-Text APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント> Google APIを有効にする」を参照してください。

プロパティ

プロパティ名	説明
ブロック名	ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント	このブロックで使用するGCPサービスアカウントを選択します。
音声データのGCS上のURL	音声データファイルが格納されているGCS上のURLを指定します。［変数展開の指定が可能］［%形式の文字列書式の指定が可能］
結果を格納する変数	音声を変換したテキストデータを格納する変数を指定します。詳細については、「出力仕様>音声認識」を参照してください。
音声データのエンコーディング	「音声データのGCS上のURL」プロパティで指定した音声データのエンコーディングを指定します。指定できるエンコーディングは、次のいずれかです。 LINEAR16 FLAC MULAW AMR AMR_WB 音声認識で最良の結果を得るエンコーディングとして、FLACかLINEAR16の使用が推奨されています。詳しくは、基本操作ガイドの「Cloud Speech-to-Text APIの音声データのエンコーディングについて」を参照してください。各エンコーディングの説明と音声データの変換について解説しています。
音声データのサンプルレート	「音声データのGCS上のURL」プロパティで指定した音声データのサンプルレートを8000から48000の間で指定します。単位は、ヘルツ（Hz）です。最良の結果を得るための最適な値は、16000Hzです。
音声データの言語コード	「音声データのGCS上のURL」プロパティで指定した音声データの言語コードを指定します。例えば、日本語の場合は、「ja-JP」を指定します。指定可能な言語コードのリストは、Language Supportopen_in_newで確認できます。
ブロックメモ	ブロックに対するコメントを指定します。
最大変換候補数	音声データをテキストデータに変換する際、複数の変換候補を得ることができます。この「最大変換候補数」プロパティでは、この変換候補の最大数を0から30の間で指定します。 0か1を指定した場合、最大で1の変換候補補が得られます。
不適切な表現を取り除く	このプロパティを有効化すると、不適切な表現と思われるものを取り除きます。
音声認識のヒントとなる単語やフレーズ	音声認識の精度を高めるための単語やフレーズを指定します。

使用例

「基本操作ガイド>ヒント>音声認識ブロックの使い方」で、音声認識ブロックの使い方を解説しています。

ブロックリファレンス

機械学習

概要

プロパティ

使用例

この情報は役に立ちましたか？