Power Apps OpenAIのWhisper(Speech To Text)をPower Automate経由で呼ぶ

今回はPower Automate経由でOpenAIのWhisper（Speech to Text）を呼び出してみたのでその結果をメモ。

Whisperについて
事前準備：OpenAIのAPIKey取得
Power Automateの作成
Power Appsの作成
1. マイク（Microphone）コントロールから音声を渡す
2. 添付ファイルコントロールから音声ファイルを渡す
おまけ1：日本語から英語への翻訳は失敗することも多い
おまけ2：ブラジル語はいけた
関連記事

Whisperについて

ということで、WhisperはOpenAIが開発した音声をテキストに変換するシステム。

OpenAIでこのWhisperを呼び出すAPIが公開されていたので、Power Automate経由でPower Appsから呼び出してみた。

※APIのリファレンスはこちら

Just a moment...

事前準備：OpenAIのAPIKey取得

まずはOpenAIのトップページに移動して、ログインする。

そしたら右上のアイコンから「View API keys」を選択。

「Create new secret key]を押して、

適当な名前を付けてKeyを作成、

作成されたキーを控えておく。

これで事前準備は完了。

Power Automateの作成

そしたらPower Automateの作成に入っていく。

完成したPower Automateの全体図はこんな感じ。

トリガーの引数は以下2つ。

Appsから「音声」を入れてもらうファイル型の引数
「transcriptions（文字起こし）」か「translations（英語翻訳）」を選択してもらう文字列型の引数

次は「拡張子」と「MIMEタイプ」の対応定義を変数に作成。
※本当はもう少し対応しているファイルタイプがあるけど今回はこのくらいで。

中身はこんな感じ。

{
  "flac": "audio/flac",
  "mp3": "audio/mpeg",
  "mp4": "video/mp4",
  "wav": "audio/wav",
  "ogg": "audio/ogg",
  "webm": "audio/webm"
}

そしたら引数で取得したファイルの拡張子から上で定義したMIMEタイプを取得する。

式はそれぞれこんな感じ。

// ファイル名からファイル拡張子の取得
last(split(triggerBody()['file']['name'],'.'))

// ファイル拡張子からMIMEタイプの取得
variables('ContentTypes')?[outputs('作成：extention')]

そしたらHTTPアクションでOpenAIのAPIをコールする。
※引数によって呼び出すURL（文字起こし or 英語翻訳）を変更。

本文の中身はこちら。

{
  "$content-type": "multipart/form-data",
  "$multipart": [
    {
      "headers": {
        "Content-Disposition": "form-data; name=\"model\""
      },
      "body": "whisper-1"
    },
    {
      "headers": {
        "Content-Disposition": "form-data; name=\"file\"; filename=\"@{triggerBody()['file']['name']}\""
      },
      "body": {
        "$Content-type": "@{outputs('作成：content-type')}",
        "$content": @{triggerBody()['file']['contentBytes']}
      }
    }
  ]
}

OpenAIからの返答はこんな感じの単純なJSONで返ってくるので、