OpenAI公布新模型GPT-4o 處理語音影片更流暢

2024-05-14 17:37:25
城樂

香港輕新聞編輯,關注科技和外地趣聞。

240514 3OpenAI圖片

美國人工智能公司OpenAI於13日公布最新AI模型GPT-4o,在語音模式中的反應時間更快及有更豐富的語調,亦可以同時處理語音和影片等輸入,模型將逐步向ChatGPT免費用戶提供。

語音對話反應僅數百毫秒

美國人工智能公司OpenAI於13日舉行發布會,公布最新AI模型GPT-4o(o意指omni),建基於2023年發布的GPT-4模型,GPT-4o的反應速度更快,在手機程式的語音模式中平均反應時間只有320毫秒,能更流暢地進行對話,而且在使用其他語言時效率亦有提高。

可同時處理語音影片資訊

在先前的AI語音模式中,程式會先把用戶的指令轉換至文字以輸入GPT模型,再以文字轉換至語言讀出回應,每次處理指令需花時數秒。GPT-4o則可以同時處理語音和圖像等輸入,更全面了解用戶指令的語調和鏡頭捕捉的背景資訊,同時亦可以使用不同語調讀出回應,表達不同的情緒。

OpenAI發布多段現場示範影片,片中可見不同以對話和GPT-4o互動的方式,例如可以進行即時傳譯、以低聲唱出搖籃曲、對現場中的小狗作出回應、以及逐步教導學生解決數學問題等。

圖文生成功能亦得到改善

在其他功能方面,GPT-4o在生成圖像時,可以確保以相同的風格生成不同的圖像,亦可以生成字體和立體模型的圖片。用戶亦可以上傳較長的錄音或影片,並要求GPT-4o作出簡單概括。

240514 4在生成卡通漫畫圖片時,GPT-4o能確保每個生成圖像的風格都一致(OpenAI網站擷圖)

OpenAI表示,GPT-4o的功能將逐步提供,ChatGPT免費用戶目前可使用GPT-4o的文字和圖像處理功能,付費用戶則可獲得五倍訊息容量上限,而語音模式則將會於未來數星期向付費用戶提供。

發佈於 InfoTech
By 2024-05-14

手機分享本文: