OpenAI揭秘GPT-4.5训练 10万块GPU全员上阵

2025-04-13来源: 游民星空 views

74分享到:

近日，在 OpenAI 史上最贵模型 GPT-4.5 发布 1 个多月后，OpenAI 联合创始人兼 CEO 萨姆?阿尔特曼（Sam Altman）与 GPT-4.5 的 3 位核心技术人员进行了一场 45 分钟的高信息量对谈，首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。

GPT-4.5 项目启动于两年前，是 OpenAI 迄今为止最周密的计划，涉及数百人团队协作，阿尔特曼称 OpenAI 为了这一项目几乎是“全员上阵”。

研发过程中，OpenAI 团队遇到了不少“灾难性问题”。10 万卡集群暴露了基础设施的隐藏的小概率、深层次故障，为了权衡时效与性能，OpenAI 的系统团队不得不“边修边训”。其中，有一个隐藏的小 bug 让集群频繁报错，直到训练进度条走过约 40% 才被揪出。

不过，这也帮助 OpenAI 打造了更为强大的技术栈：如今可以仅用 5-10 人便复刻出 GPT-4 级别的大模型。GPT-4 至 GPT-4.5 的性能提升约为 10 倍，获得了“难以量化但全方位增强的智能”，这点让 OpenAI 员工们都感到意外。

OpenAI 团队已经意识到，要实现下一个 10 倍乃至百倍的性能提升，算力已不是瓶颈，关键在于数据效率，即开发出能够利用更多算力，从同样数量的数据中学到更多知识的方法。

同时，系统正从单集群转向多集群架构，未来的训练可能涉及 1000 万块 GPU 规模的协作学习，其容错能力需要进一步提升。

*以上内容系网友风平浪静自行转载自游民星空，该文仅代表原作者观点和态度。亿忆号系信息发布平台，仅提供信息存储空间服务，不代表赞同其观点和对其真实性负责。如果对文章或图片/视频版权有异议，请邮件至support@yeeyi.com反馈，平台将会及时处理。

责任编辑：Quan

分享到: