AIを色々勉強中。
pythonのライブラリ「whisper」で簡単に音声認識AIを作れるらしいのでやってみる。
音声認識というのは、動画の音声をテキストに直して表示してくれるという神アイテム
早速やってみる!
まずは、whisperをインストール
py -m pip install openai-whisper
出来たら、音声データをネットで適当に拾ってくる
日本語音声サンプル | 株式会社スカイフィッシュ:Skyfish Inc.
標準日本語音声クラウドAI音声外国語音声別ページにジャンプします 標準日本語音声サ
ここで無料ダウンロードさせてくれるので、男性の声をダウンロードしてみる
無料ありがたい、ありがとうございます!!
ダウンロードしたら、pythonのコードで音声認識やってみよう。
import whisper
model = whisper.load_model("medium")
result = model.transcribe("samplevoice_keita.mp3")
print(result["text"])
実行してみると
「ここ、スカイ博物館は地球の移り変わりと、植物や生物、私たち人類の進化について理解を深めていただくために、2000年に開館した総合博物館です。日本全国で採取された標本を中心に、約3000展の展示物を常時展示しています。その他、様々なテーマを題材にした企画展も年に数回開催し、国内外から貴重な標本、展示物を展示しています。」
1分ほどでテキストに表示された!
すごー
たったの3行で出来た
AIすごすぎ。
すごいのはこれを開発した人だな
※エラーが出る場合は、ffmpegが必要です
PCにffmpegが入っていないと、このコードはエラーになります。
ffmpegは音声変換に必要なのでwinの方は以下の方法でインストール
winget install –id=Gyan.FFmpeg -e
これで実行できるはず。
PCの性能によって、処理に時間がかかるので気長に待ってね。

コメント