Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用

Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用

  • 沿って huawei-accessories
  • 07/06/2022

ツールが開いたら、まず一番上のバックグラウンドノイズの登録をします。何もしていない状態の音をひとつのパターンとして学習させておくのです。次の図の通り、雑音だけを20秒録音して各1秒20個の音声サンプルを作ります。

学習データ作成ツール。バックグラウンドノイズの[マイク]ボタンを押す❶[20秒間録画する]ボタンを押すと録音が始まる。録音が終わったら、❷[サンプルを抽出]ボタンを押すと、自動的に20個の音声サンプルに分割される。

続いて、学習させたいパターンの登録をします。次回、「Scratch」で作る作品に使いたいのは、“パイナップル”と“りんご”のどちらを発声したかを判定する音声認識モデルです。“パイナップル”という発声と、“りんご”という発声をそれぞれひとつのパターンとして学習させませす。

Google製「Teachable Machine」の機械学習で簡単に音声認識データを作る ~TensorFlowの技術を「Scratch」で活用

まず、次の図の通りの手順で、“パイナップル”の学習サンプルから作りましょう。録音するごとに“パイナップル”と発声して、“パイナップル”音声のサンプルを作成します。

このツールは1秒間の音声サンプルをたくさん学習させる仕組みです。1つのパターンにつき8個以上のサンプルが必要ですが、サンプルは多い方がいろいろな“パイナップル”を認識する学習データになります。

❶“Class 2”というタイトルを“パイナップル”に書き換え、❷[2秒間録画する]を押して“パイナップル”と発声する。2秒の録音が終わったら❸[サンプルを抽出]ボタンを押す

録音は1度に2秒間行われますが、自動的に1秒ずつ2個のサンプルに分割されます。今回は、特定の単語の発声を認識させるのが目的なので、発声の含まれないサンプルや、“パイナッ”や“プル”など一部だけしか入っていないサンプルは削除しておきましょう。これを行わないと認識の精度が下がります。

ひとつずつ確認をして、不要なサンプルは削除。全体数が減りすぎたと感じたら追加で録音して補充する

同様に、“りんご”の学習サンプルも作成します。“バックグラウンドノイズ”、“パイナップル”、“りんご”の3個のパターンの学習用サンプルがそろったら、[モデルをトレーニングする]を押して機械学習させます。

[モデルをトレーニングする]ボタンを押すと機械学習がスタートする