下载手机亿忆app
新闻

OpenAI揭秘GPT-4.5训练 10万块GPU全员上阵

2025-04-13来源: 游民星空views74分享到:
收藏

近日,在 OpenAI 史上最贵模型 GPT-4.5 发布 1 个多月后,OpenAI 联合创始人兼 CEO 萨姆?阿尔特曼(Sam Altman)与 GPT-4.5 的 3 位核心技术人员进行了一场 45 分钟的高信息量对谈,首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。

GPT-4.5 项目启动于两年前,是 OpenAI 迄今为止最周密的计划,涉及数百人团队协作,阿尔特曼称 OpenAI 为了这一项目几乎是“全员上阵”。

研发过程中,OpenAI 团队遇到了不少“灾难性问题”。10 万卡集群暴露了基础设施的隐藏的小概率、深层次故障,为了权衡时效与性能,OpenAI 的系统团队不得不“边修边训”。其中,有一个隐藏的小 bug 让集群频繁报错,直到训练进度条走过约 40% 才被揪出。

不过,这也帮助 OpenAI 打造了更为强大的技术栈:如今可以仅用 5-10 人便复刻出 GPT-4 级别的大模型。GPT-4 至 GPT-4.5 的性能提升约为 10 倍,获得了“难以量化但全方位增强的智能”,这点让 OpenAI 员工们都感到意外。

OpenAI 团队已经意识到,要实现下一个 10 倍乃至百倍的性能提升,算力已不是瓶颈,关键在于数据效率,即开发出能够利用更多算力,从同样数量的数据中学到更多知识的方法。

同时,系统正从单集群转向多集群架构,未来的训练可能涉及 1000 万块 GPU 规模的协作学习,其容错能力需要进一步提升。

*以上内容系网友风平浪静自行转载自游民星空,该文仅代表原作者观点和态度。亿忆号系信息发布平台,仅提供信息存储空间服务,不代表赞同其观点和对其真实性负责。如果对文章或图片/视频版权有异议,请邮件至support@yeeyi.com反馈,平台将会及时处理。

责任编辑:Quan
分享到:
收藏

相关推荐

评论0条