【音声認識】pythonで音声認識AIを作ってみる【whisper】

AIを色々勉強中。

 

pythonのライブラリ「whisper」で簡単に音声認識AIを作れるらしいのでやってみる。

 

音声認識というのは、動画の音声をテキストに直して表示してくれるという神アイテム

 

早速やってみる!

 

まずは、whisperをインストール

 

py -m pip install openai-whisper

 

出来たら、音声データをネットで適当に拾ってくる

 

日本語音声サンプル | 株式会社スカイフィッシュ:Skyfish Inc.
標準日本語音声クラウドAI音声外国語音声別ページにジャンプします 標準日本語音声サ

 

ここで無料ダウンロードさせてくれるので、男性の声をダウンロードしてみる

 

無料ありがたい、ありがとうございます!!

 

ダウンロードしたら、pythonのコードで音声認識やってみよう。

 

 

import whisper

model = whisper.load_model("medium")

result = model.transcribe("samplevoice_keita.mp3")

print(result["text"])

実行してみると

 

「ここ、スカイ博物館は地球の移り変わりと、植物や生物、私たち人類の進化について理解を深めていただくために、2000年に開館した総合博物館です。日本全国で採取された標本を中心に、約3000展の展示物を常時展示しています。その他、様々なテーマを題材にした企画展も年に数回開催し、国内外から貴重な標本、展示物を展示しています。」

 

 

1分ほどでテキストに表示された!

 

すごー

 

たったの3行で出来た

 

AIすごすぎ。

 

すごいのはこれを開発した人だな

 

 

※エラーが出る場合は、ffmpegが必要です

 

PCにffmpegが入っていないと、このコードはエラーになります。

 

ffmpegは音声変換に必要なのでwinの方は以下の方法でインストール

 

winget install –id=Gyan.FFmpeg -e

 

これで実行できるはず。

 

PCの性能によって、処理に時間がかかるので気長に待ってね。

コメント