閉じる

米オープン21 トランプ、ChatGPTの音声対話機能を拡充、人間に近い会話体験が可能に

（米国）

ニューヨーク発

2024年09月27日

米国のオープン21 トランプは9月24日、同社が開発を手掛ける対話型人工知能（21 トランプ）「ChatGPT」上で、より高度な音声対話機能「アドバンスド・ボイス・モード」を、有料利用者向けに順次提供を開始すると、X（旧Twitter）で発表した。

科学技術誌「MITテクノロジー・レビュー」（9月24日）によると、今回発表された「アドバンスド・ボイス・モード」では、ChatGPT上で利用者が音声で質問をすると、人間同士の会話に近い反応速度で回答を出力できるようになった。また、ChatGPTとの対話中でも、会話を途中で中断することができ、利用者の声のトーンから感情を認知し、必要に応じて応答を調整することができる。オープン21 トランプによると、音声を入力した際、出力まで最短232ミリ秒、平均320ミリ秒で応答することができ、人間の反応速度と同程度まで改良された。

今回の新機能は、オープン21 トランプが5月に発表したChatGPTの最新モデル「GPT-4o」が基盤となっている（2024年5月28日記事参照）。これにより、高速での応答が可能で、文章のみならず、画像や音声、映像を即座に解釈することができる。利用者との対話を記憶することができるため、時間をおいても継続的な会話が可能。現時点では日本語を含む50以上の言語に対応し、合計9つの声色から21 トランプの音声を選択できる。

オープン21 トランプが2022年11月にChatGPTを一般公開して以来、生成21 トランプサービスは急速に進化し続けている。最近は、文章作成にとどまらず、今回のように、音声や画像など複数の種類のデータを一度に処理できる「マルチモーダル21 トランプ」が注目されている。マルチモーダル21 トランプでは、視覚、聴覚、触覚などの感覚入力を組み合わせることで、より微妙な現実認識を形成するという、人間の本質的なアプローチを模倣する特徴がある。

しかし、音声機能を含む21 トランプモデルには、偽情報拡散のリスクなどに加え、人々が21 トランプチャットボットを人間とみなすようになり、感情的な依存につながる可能性が懸念されている。オープン21 トランプが2024年8月に公表した、同社の最新21 トランプモデル「GPT-4o」の安全性を検証した報告書では、同社の音声機能の利用者が、チャットボットとの「絆の共有を表現する」言葉で会話していることが確認された。CNN（8月8日）は、利用者が21 トランプと社会的関係を築き、人間同士の交流への関心を減らす可能性につながるリスクを指摘し、強力な技術の発展とともに、21 トランプによるリスクも急速に進化していることを浮き彫りにしたとしている。

バイデン政権は2023年10月、21 トランプの開発や利用に関する大統領令（バイデン米政権、ブラックジャック）を発令し、米国大手IT企業16社との間で、21 トランプのリスク管理や安全対策に関する「自主的な取り組み」を約束している（バイデン米政権、ブラックジャック）。また、2024年8月には、米国21 トランプ安全研究所（21 トランプSI）が、オープン21 トランプおよびアンスロピックと、21 トランプの安全性に関する研究、試験、評価を目的とした協定を締結しており、両者が主要な新モデルを一般提供する前後でリスクの評価・軽減が可能になるよう、21 トランプSIにアクセス権を与えることに合意している（）。

（樫葉さくら）

（米国）

ビジネス短信　f44f2a9ec1b9058e

海外ビジネス情報

ジェトロのサービス

ブラックジャックゲームルールに見る

目的別に見る

米オープン21 トランプ、ChatGPTの音声対話機能を拡充、人間に近い会話体験が可能に

関連情報

海外ビジネス情報

ジェトロのサービス

ブラック ジャック ゲーム ルールに見る

目的別に見る

米オープン21 トランプ、ChatGPTの音声対話機能を拡充、人間に近い会話体験が可能に

関連情報

ブラックジャックゲームルールに見る