“共话AIGC时代智算发展之道”圆桌对话精彩实录

来源：光明网2023-09-13 12:14

　　大模型在巨量算力的驱动下，“智能涌现”能力初显，带来了通用智能的曙光，也加速人工智能与千行百业融合。当前，人工智能算力不仅是驱动大模型进化的核心引擎，也成为大模型产业发展不得不面对的挑战。

　　近日，新智元创始人&CEO杨静主持“共话AIGC时代，智算发展之道”圆桌对话，与浪潮信息高级副总裁刘军、百川智能技术联合创始人陈炜鹏、快手异构计算负责人刘凌志、金山办公技术总监熊龙飞围绕大模型时代的智算机遇、痛点与破局之道展开思想碰撞。

　　与会嘉宾指出，中国大模型仍处于商业生态发展初期，需要在智算系统构建、平台支撑、算法研发、应用落地等层面进行广泛的生态合作，从而打造更为卓越的大模型，并推动模型的场景化落地。

　　以下为问答实录：

　　杨静：现在“百模大战”已经过了上半场，大家在上半场是怎样围绕大模型进行业务布局的？

　　刘军：浪潮信息在AIGC最重要的产业布局还是围绕着智算，我们希望通过智算力来加速生成式AI和大模型的创新和落地，围绕算力、算法、数据、互联智算四要素进行了产品布局和技术上的创新，希望通过我们产品和技术的组合以及更好的服务，加速用户的生成式AI创新步伐。

　　陈炜鹏：百川智能进入大模型领域以来，产品发布更迭非常快速。在ToB领域，百川智能的开源工作获得了很好的影响力，也存在很多商机。未来我们希望借助开源开启ToB合作。在ToC方面，百川智能有很强的互联网产品基因，希望能够打造一个超级助手类产品，实现ToB、ToC两条腿前进。

　　刘凌志：快手大模型应用比较多，在搜索推荐广告、音视频创作上都做了一些有益的尝试。未来，希望通过ToB的StreamLake，和广大用户进行更直接的交流，共同做大、做好大模型产品。

　　熊龙飞：金山办公作为大模型的应用方，暂时不生产大模型。目前金山办公根据不同场景采用不同模型的多模型应用方案，根据我们的业务定位确定三个主要方向，一是AIGC内容生成，帮用户写东西、做东西；二是Copilot，帮用户做个人助理；第三是知识洞察，主要帮助用户分析和发现文档中的重要信息。

　　杨静：算力是大模型时代的核心驱动力、超强发动机，算力需求变成了当前AIGC时代的堵点瓶颈，也就是说大模型为代表的AIGC业务卡在算力上了，很多企业都会面临算力的瓶颈、算力的压力，大家期待什么样的算力基础设施来支撑大模型的创新和应用？

　　刘军：从浪潮信息的角度，首先是全力做好算力供给保障工作，在算力供应紧张的背景下，如何构建具备更高生产力的算力系统，成为行业关注的焦点。对此，浪潮信息开发大模型“源”，研究大模型对算力系统的需求特点，籍此为客户交付更高性能更好用的算力系统。因此，浪潮信息发布OGAI智算软件栈，也是希望帮助伙伴和客户最大化地释放算力性能。

　　陈炜鹏：大家都经历了“算力荒”，这个问题是很难以克服的。我们也观察到算力在未来9-12月里还是会非常紧张。对于百川智能来说，我们在前期通过跟云厂商合作，以及寻求跟浪潮信息的合作，来解决算力的问题。同时，我们也会花很多时间研究怎么提升训练效率、提升研发成功率，探索更高效的算力系统。

　　刘凌志：快手主要依靠大的智算基础设施提供商帮我们在一定程度上解决算力短缺的问题，但是这个算力紧张始终会存在。快手对于算力问题主要有三个观点：首先是研发异构多元算力体系，寻找算力的更多选择；其次大模型算力问题是全新赛道，未来2-3年会有非常多的机会；第三，快手在三年前遇到视频算力瓶颈时就开始布局自研芯片，目前也得到了较好的结果。我们希望整个产业界联合起来，从用户端到基础设施端，朝着共同目标一起通过长期的努力解决算力问题。

　　杨静：算力紧缺确实是未来两三年的难题。目前，业内也有声音表示，训练大模型是和火箭发射一样的系统工程，不是有卡就行。因为在大规模分布式训练中，算力效率、训练失稳等等问题都会影响模型的训练效率和精度。在大模型训练中，各位遇到过什么样的技术难题？

　　刘军：现在大模型训练算力集群就像一个性能特别棒的法拉利跑车，但是我们如何调教好这个跑车，如何驾驭好这个跑车，这个能力的要求是非常高的。当前的大模型算力基础设施要充分发挥作用，有三个方面需要注意：

　　第一是算力的高效率，涉及到系统的底层驱动、系统层优化，与大模型相适配的流水线并行、数据并行等的优化；第二是线性扩展能力，在单机上获得较高算力效率之后，能不能扩展到几百个节点、几千块卡，保持相对线性的性能扩展比，这是在整个算力集群系统设计和并行策略设计时，需要考虑的重要因素；三是可持续计算能力，大模型训练会碰到各种软硬件、算法、框架问题所引发的失效故障，训练失稳时系统需要更多机制上的设计，使这个过程更加自动化、智能化地去完成。

　　陈炜鹏：对于训练我们会有两个判断，第一个判断是我觉得大家可能高估了训练一个大模型的难度，但低估了训练好一个模型的难度，这里边是有矛盾的。未来，就训练模型本身我觉得会变得越来越容易，但训练好一个模型会变得非常非常难。因为训练好模型是一个经验工程，也是一个系统工程，当模型的规模越来越大，训练成本很高，容错空间会变得非常小。这个灾难性的成本可能会越来越难以承受，所以训好一个模型会变得很难。还有就是大模型实验的成本非常高，那怎么提有效的假设去降低这个实验的成本，这些事情需要很多实验和Know-how，我觉得这可能才是未来竞争最大的胜负点所在。

　　另一个认知差异是，我觉得我们现在很关心训练的成本，下半场（今年下半年开始到明年）大家的焦点可能会转移到推理成本上。模型训练能够做得很大，但推理时的成本成为关键。怎样控制好推理成本，甚至推理成本能够比别人做得更低，可能会是未来决胜的另一个关键点。

　　刘凌志：训练出一个好的模型并不简单，从工程能力来讲，随着业务的进展，训练的算力问题总归是能解决的，挑战就进入到推理阶段，如何降低推理成本还需要进行很多研究。今后推理的问题更加严重，因为模型训练利用率比较高，推理卡的利用率是非常低的。

　　杨静：这种高成本以及摩尔定律的放缓，会在一定程度上妨碍大模型技术的发展，未来大模型发展怎么样才能突破算力瓶颈或者难题？

　　刘凌志：截至2023年7月份，中国10亿以上参数的大模型超过了70个，但是目前来看，只有在500亿规模以上的大模型才会显得“更聪明”。很多垂直行业模型如果不是生成式对话，可能只需要7B、13B的算力，瓶颈问题可能并不明显，但能不能使用起来还要经过时间考验。

　　陈炜鹏：GPT从3.5到4，参数规模涨了10倍，对应的数据量也是10倍以上的增长，所以是两个数量级的增长，而且增长在不到一年的时间里面发生。目前大家看到算力增长一定会带来能力增长，这个模式必然造成成本和能力的矛盾。在解决方式上，存在两种可能性：一是当前的算法范式还是主要基于 Transformer，模式比较固化，存在从通用芯片走向专用芯片的可能性；二是人一辈子读的信息不超过10b，目前的模型通过扩大规模去提升能力，未来可能产生新的算法思路，跳出无限扩大规模的方式。

　　刘军：我认为大模型泛化能力和算力关系还是非常紧密的，一方面当然是模型的参数量，另外一方面是我们一直在讲的算力当量概念，也就是为了训练一个性能很高的模型所需要的算力代价，衡量标准就是PetaFlop/s-day（每秒运算千万亿次的计算机完整运行一天消耗的总算力）。目前的挑战是需要的模型性能难以匹配到足够的算力。浪潮信息希望为伙伴和客户的算力兜底，提供充足的算力，使其无需担心模型够不够大，算力当量够不够大。

　　对于算力挑战，首先芯片方面的改变会是一个机会，可能会有一种面向大模型的算力芯片，这是下一步值得特别关注的；第二个非常值得期待的是，摩尔定律的失效决定了仅从芯片层面没有办法解决算力问题，所以要从系统的角度去思考这个问题——如何构建一个优化的算力系统，让它在低带宽的情况下也能训练得很好，训练得很棒。

　　杨静：大模型落地面对的问题障碍越来越多，更需要业界通力合作去破解这些难题，在推进大模型落地当中还有来自哪些客户端的需求？

　　刘军：大模型应用需要建立从大模型到企业落地的优化路径，关键就是有用户进来。许多客户的想法停留在花钱购买大模型直接用的层面，而生成式AI一定要和用户的数据、场景、应用甚至客户的价值链紧密结合。

　　熊龙飞：金山办公做AI的这些年，我们的路径一般是先做ToC，因为可以用公网或者云端的算力，通过大集群满足所有C端用户需求。而B端、G端客户他们的私有化部署需求更加强烈。ToB或 ToG的私有化要根据企业或机构的情况、规模或者是具体的数据要求做不同的方案，这样会带来很多挑战，同时也会带来很多机会。

　　杨静：大模型产业发展竞争越来越白热化了，企业该怎么建立竞争壁垒以及找到新的增长点呢？

　　熊龙飞：金山办公的技术非常延续，一直专注于做文档技术。当我们把一个东西做了30多年以后，会把它做得很深很透，慢慢地建立起比较高的技术壁垒。同时，我们还要保持对新技术的拥抱和快速学习、适应的能力，才能保障技术的实时创新。金山办公经历过很多次技术变革，所以我们对于新技术的敏感度和反应速度都很快，对自己的要求也很高，基本上有什么新技术过来我们就快速拥抱，去了解它、应用它，这样就可以避免自己被新技术颠覆掉。

　　刘凌志：把短视频和AI大模型相结合，始终是快手未来的一个方向。我们的优化目标也是比较明确的，即降低用户的使用成本，因此非常希望产业界能够出现有效降低推理中Cost per Token的解决方案，我们也非常愿意跟产业界的朋友合作，达成这个目标。

　　陈炜鹏：大模型的不可靠来自两点――时效性和幻觉问题，对于百川智能来说，尝试怎样把搜索和大模型结合，用更经济的方式提供更好的解决方案，是我们在技术上想要探索的。

　　刘军：生成式AI只是起点，未来还有很远的路，需要持续不断打造竞争力的，需要更好的数据、更好的算法、更好的算力、更好的工程和更好的生态。训练好一个大模型，对工程能力有非常高的要求。而生态落地光是自己做肯定是做不成，一定联合伙加入进来一起打通一个能够持续不断跑起来的飞轮生态。

　　杨静：怎么能通过产业生态合作来解决大模型发展当中遇到的各种难题？

　　刘军：浪潮信息有一句生态口号――“聚元脑生态，助百模，智千行”，助百模的客户和伙伴能够为千行百业生智，这是我们生态的理念。我们注意到模型公司都是具备创新力的领先科技团队，但是要落到千行百业的企业客户、B端客户的时候，实际上这里面还存在需要跨越的鸿沟。然而自己建立一个庞大的渠道体系和销售体系，必然耗资巨大且效果不一定好。浪潮信息的元脑生态把模型伙伴、AI科技公司叫左手伙伴，把集成商、软件商叫右手伙伴，三方携起手来组成联合解决方案，服务客户，共同助力千行百业的智慧发生。

　　陈炜鹏：我们的商业化路径还在探索中，而在构建开源影响力过程中接触到很多企业使用我们的模型，通过跟踪他们使用的过程，慢慢捕捉到企业需求，持续打磨产品。

　　刘凌志：快手作为一个终端的平台，非常注重和上下游的生态伙伴合作共赢，一方面给整个产业生态比较清晰的终端用户需求，另外一方面通过输出技术来持续打磨自己的技术。

　　熊龙飞：以往我们处于英雄主义时代，单个程序员可以写出影响时代的软件。但这个时代在变，所有的项目规模都变大了，尤其是大模型产业链变得非常长，底层硬件驱动、硬件算法再加上方案系统以及应用端的东西，一家公司已经干不完所有的事情了。所以，这个时代一定是合作共赢的时代，我们在生态中明确定位到应用方，跟不同的产业链上的角色进行合作，大家在每个环节上发挥自己最大的优势，然后进行合作共创。我相信通过上下游的合作国内的大模型发展会非常好，非常快。

[ 责编：焦子原 ]

阅读剩余全文（）