オンデバイス・ウィスパー

「less」と入力します。
もっと言います。

AI によるプッシュトークディクテーション。カーソルのある場所に直接貼り付けられます。クラウドアップロードやアカウントは必要ありません。リリースからテキスト送信まで約 120 ミリ秒。

Apple Silicon で実行 · ウィスパーベース · ~120 ミリ秒の遅延

仕組み

「教授にメールを送って」と言えば、ディクテーションは自動的に洗練されたメールになります。 Raw、Local、Quick、Think モードから選択します。【9】AIに音声で指示を与える

「これを要約して」などと言うと、AI がその場で実行します。ディクテーションを超えて、コマンドとしての音声。

音声をクラウドに送信しますか?

決してありません。 Whisper は、Neural Engine (または古いマシンの CPU) を使用して Mac 上で完全に実行されます。オーディオは最初から最後までデバイス上に残ります。オーディオ自体にはサーバー、アカウント、テレメトリはありません。

どのくらい正確ですか?

ウィスパーベースは、静かな環境では英語とほとんどの主要言語に対して高い精度を示します。他のローカルモデルと同様に、バックグラウンドノイズやアクセントが大きい場合は精度が低下します。将来のリリースでは、精度のトレードオフが必要な場合に、小規模または中規模のモデルを交換できるようになります。

Intel Macでも動作しますか?

はい、注意点があります: トランスクリプションはニューラルエンジンではなく CPU で実行されるため、レイテンシーは長くなります (120 ミリ秒ではなく、およそ 400 ～ 800 ミリ秒)。完璧に使えますが、それほどサクサクではありません。【9】fnを押さずにハンズフリーで使用できますか？

fnを押さずにハンズフリーで使えますか？

プッシュトゥトークは意図的なものです。これにより、マイクが開いているときを制御できるようになり、誤って書き写されるのを防ぐことができます。トグルモード (クリックして開始、クリックして停止) がロードマップにあります。

どの言語がサポートされていますか?

Whisper ベースは、英語、韓国語、日本語、スペイン語、フランス語、ドイツ語、中国語、アラビア語などを含む 90 以上の言語をサポートしています。 fns は、モデルに到達する言語を制限しません。Whisper が処理するもの、音声からテキストへの処理が何であれ。

順番待ちリストに参加して、Mac でデバイス上の音声ディクテーションを誰よりも早く試してください。