【音声認識】pythonで音声認識AIを作ってみる【whisper】

AIを色々勉強中。

pythonのライブラリ「whisper」で簡単に音声認識AIを作れるらしいのでやってみる。

音声認識というのは、動画の音声をテキストに直して表示してくれるという神アイテム

早速やってみる！

まずは、whisperをインストール

py -m pip install openai-whisper

出来たら、音声データをネットで適当に拾ってくる

日本語音声サンプル | 株式会社スカイフィッシュ：Skyfish Inc.

標準日本語音声クラウドAI音声外国語音声別ページにジャンプします標準日本語音声サ

ここで無料ダウンロードさせてくれるので、男性の声をダウンロードしてみる

無料ありがたい、ありがとうございます！！

ダウンロードしたら、pythonのコードで音声認識やってみよう。

import whisper

model = whisper.load_model("medium")

result = model.transcribe("samplevoice_keita.mp3")

print(result["text"])

実行してみると

「ここ、スカイ博物館は地球の移り変わりと、植物や生物、私たち人類の進化について理解を深めていただくために、2000年に開館した総合博物館です。日本全国で採取された標本を中心に、約3000展の展示物を常時展示しています。その他、様々なテーマを題材にした企画展も年に数回開催し、国内外から貴重な標本、展示物を展示しています。」

1分ほどでテキストに表示された！

すごー

たったの３行で出来た

AIすごすぎ。

すごいのはこれを開発した人だな

※エラーが出る場合は、ffmpegが必要です

PCにffmpegが入っていないと、このコードはエラーになります。

ffmpegは音声変換に必要なのでwinの方は以下の方法でインストール

winget install –id=Gyan.FFmpeg -e

これで実行できるはず。

PCの性能によって、処理に時間がかかるので気長に待ってね。