HonnyakuWWDCは、WWDCの動画をDeepLで日本語に翻訳し、さらにiOS/Macの音声アシスタントで動画に同期して読み上げるアプリです。 喋るタイミングと動画の再生を同期しているので、動画の画像と大きくずれることなく日本語で聞くことができます。
swiftregex_capture.mov
Important
このアプリを使うにはDeepLのAPI Keyと、OpenAIのAPI Keyが必要です。翻訳にDeepLを、元の動画からテキストを抽出するためにOpenAIのAPIを使用します。それぞれコストがかかることに注意してください。DeepLは無料分でもある程度の量使用できます。ちなみにOpenAIのモデルはGPTではなくAudio Modelを使用します(OpenAIのUsageを見ると使用したモデルが記録されるので、ちゃんと使用許可のあるAPI Keyを使いましょう)。
-
HonnyakuWWDC
本体。動画の選択と翻訳、再生ができます。macOS14.5, iPadOS17, iOS17.4で動作確認しています。
-
アプリを起動する前に、日本語の音声読み上げを使うには音声ファイルのダウンロードが必要です。
動かしたい環境(Mac)の
設定
→アクセシビリティ
→読み上げコンテンツ
からシステムの声
を選択し、カスタマイズ...
から使いたい声(Kyokoを推奨)をダウンロードしてください。Siriを選びたいところですが、残念ながらアプリではSiriを使うことはできません。 -
アプリを起動し、ギアボタンを押して設定画面を行います。
-
OpenAIのキーを入力します。
-
DeepLのキーを入力します。DeepLのProアカウントの場合はPro AccountのスイッチをONにします。
-
WWDC2024 - WWDC2020のうち、見たいカンファレンスをONにします。ONにするとリストのダウンロード(サイトのスクレイピング)が始まります。10秒くらいかかります。
-
-
画面左リストに動画の一覧が表示されます。選択すると動画のWebサイトが表示されます。
WWDC2023以前の動画: 画面上部のTransferボタンを押すと音声データのスクレイピングとDeepLを用いた翻訳を行います。この時点でDeepLの「翻訳可能な残りの文字数」を消費します。翻訳等に10秒くらい時間がかかります。
WWDC2024の動画: WWDC2024の動画のWebサイトにはTranscriptがないので、OpenAIのAudio Modelを使って、動画の音声からテキストを生成します。 画面上部の「Download video, extract transcript and translate it 」ボタンを押すと、動画のダウンロード、音声の抽出、OpenAIを使った音声からテキストへの変換、DeepLを用いた翻訳を行います。おもにテキスト変換で数分間時間がかかります。
-
翻訳に成功すると動画が表示されます。
動画プレイヤー右上のボタンで、音声の再生速度などを変更できます。
翻訳したデータ(JSONファイル)は、アプリのドキュメントフォルダに保存されます。ファイルアプリから参照することができるので、必要に応じてバックアップしてください。シミュレータをご使用の場合は、アプリ起動時にドキュメントフォルダのパスをログに出しているので、それをファインダアプリで開くことで簡単に参照できます。ドキュメントフォルダのファイルは以下の2種類です。他の端末で動かしたい場合は、これらのファイルをアプリのドキュメントフォルダにおくことで翻訳したデータを参照できます。
- xxx_list.json 年度毎の動画のリスト
- xxx_xxxx_xx.json 動画1つの翻訳データ
現在このアプリは日本語しか選択できませんが、DeepLとAppleの読み上げ機能は他の多くの言語に対応しています。ソースコード中の言語の定義を増やせば、他の言語でもいけるんちゃうかなと思います。確認してないけど。