OpenAI 的大型語言模型 GPT-4 系列相信很多人都熟悉,亦可透過一些渠道如 Windows Copilot 用到。OpenAI 今日就發表新模型系列 OpenAI o1,給它在回答之前有更多時間,通盤思考複雜任務,及解決對過往的模型來說困難的科學、編程和數學問題。ChatGPT Plus 訂戶及 Teams 用戶現已可以選用這系列模型的預覽版。
OpenAI o1 在多項專業評測上都取得好成績,在 Codeforces 編程競賽問題中排名第 89,在美國奧林匹克數學資格賽 AIME 中位列前 500 名學生,並在 GPQA 物理、生物及化學問題基準測試中準確性超越人類博士生。
據 OpenAI 表示,用來訓練 o1 的資料與訓練 GPT-4o 一樣,是 2023 年 10 月的資料。o1 每次可處理的 Token 數量為 128,000 Token,與 GPT-4o 相同,而輸出 Token 數量就比 GPT-4o 多一倍,達 32,768 Token。
OpenAI 已經向 ChatGPT Plus 用戶和可信的 API 用戶提供 OpenAI o1-preview 預覽版可立即使用。與現時的 GPT-4 不同,o1 在用戶輸入問題後不會立即就作出回答,而是在畫面顯示「Thinking」字句,以表示 o1 正在思考。而在強行輸入大量問題來令 LLM 回答不合法問題的安全性測試中,GPT-4o 在 100 分中只取得 22 分,而 o1-preview 就取得 84 分,顯示 o1 安全性能高出不少。
OpenAI 同時發表 o1-mini 迷你版模型,它在 STEM 尤其是數學和編程方面有優異表現,OpenAI 稱它甚至在美國奧數 AIME 和 Codeforces 等評估基準上與 o1 表現不相上下,而在速度上就較快,價錢上就較 o1 便宜 80%。這迷你版模型適用於解決需要推理能力但不需要世界性廣泛知識的問題。
不過雖然 o1 具備廣泛知識處理複雜問題,但現時的預覽版還未具備瀏覽網頁和上載圖片的功能。OpenAI 表示目前仍在進行優化工作,以令 o1 用起來像現行模型一樣易用。而在使用限制方面,推出初期如果透過 ChatGPT 介面輸入,用戶每星期可向 o1-preview 發送 30 個訊息,而 o1-mini 則可發送 50 個訊息。OpenAI 未來將會降低限制,並且計劃向免費的 ChatGPT 用戶提供 o1-mini 模型。