在AI发展的当下,Keras创始人发布的报告披露了一些令人震惊的信息。在多种计算量模式中,o3的成本相当高。但在某些特定测试中,它的准确率却实现了显著提升,这无疑是一个亮点。
o3的成本与准确率表现
低计算量任务时,每个任务的花费是20美元;而高计算量任务,费用则高达数千美元,确实不便宜。由此可见,o3的研发和运行成本相当高。然而,即便如此,在缩短测试时间的情况下,o3的准确率能达到25%,虽然不算特别高,但在目前所有模型的准确率都低于2%的情况下,这已是一个巨大的进步,充分展现了它的强大潜力。
从实际应用角度分析,若未来o3得以广泛应用,相关成本无疑将左右企业的采纳选择。尽管如此,在成本较高的前提下,准确率的提高也使众多研究者看到了超越当前人工智能局限性的曙光。
o3 - mini的多基准突破
mini同样表现出色,在数学、编程、博士级别科学问题解答以及函数调用等多个基准测试中实现了新的进展。比如在Codeforces的测试中,它的Elo评分会随着思考时间的增加而提高。这表明,思考时间对于o3 - mini的性能表现起到了正面作用。
研究者要求其在GPQA数据集上用较低推理能力进行评估时,即便是在这个具有挑战性的数据集上,其表现依然保持稳定。在低强度思考模式下,o3 - mini(low)实现了62%的准确率,这一结果充分体现了它处理复杂任务的高效能力。
AI发展阶段下的持久性基准测试
目前人工智能还处于初级阶段,我们亟需像ARC-AGI这样的长期基准测试来衡量其发展。这样的基准能衡量模型的表现和进步。以o3为例,若没有这样的基准来衡量,我们很难判断其是否真正进步,还是只是数据上的波动。
在研发实践中,若研发者与公司想在人工智能领域深化研究,精确的衡量标准是必不可少的。无论是优化模型,还是对比不同模型,这些基准测试都是必不可少的环节。
o3代表的AI能力跃升
o3的性能进步并非逐步,而是实现了真正的飞跃。它成功突破了先前LLM的局限,实现了质的提升。过去那种仅通过扩大数据量、训练更大版本的方法,现在已无法满足我们的发展需求。
o3代表着一种全新的发展路径,这表明它为人工智能迈向通用人工智能(AGI)提供了新的途径。若其他模型想要取得类似成就,就必须参考o3的策略。
对AGI探索的价值
这一系列成果,包括o3与o3 - mini,为AGI的深入研究贡献了重要数据。尽管这些成果在记忆、提取和应用方面存在一些不足,但它们依旧为探索通用人工智能开辟了一条路径。
研发AGI过程中,这些成就有助于科学家深入把握AI在执行任务、吸收新知等方面的性能极限,进而优化研究方法。
o3克服LLM新任务应对难题
之前的LLM在处理新任务时效果不理想,但o3通过编写并执行自编程序解决了这一问题。此外,o3还能将函数重新组合成新程序以应对新任务,在测试中通过搜索程序空间等方法,实现了知识的重新组合,目前其水平已达到行业领先。
这为LLM的将来发展开辟了新方向。若能顺着这个方向继续前进,LLM可能增强处理新任务的能力,同时拓宽其应用领域。
读者们,你们认为像o3或o3 - mini这样的模型,将来会在我们生活的哪些领域带来重大变化?欢迎留言交流、点赞以及转发分享。