点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:火山引擎发布大模型训练视频预处理方案
首页> 科技频道> 人工智能 > 正文

火山引擎发布大模型训练视频预处理方案

来源:光明网2024-10-15 14:05

  10月15日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。

  火山引擎总裁谭待表示,在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变,“基于抖音业务实践和与行业客户共创,火山引擎视频云正积极探索AI大模型与视频技术的深度融合,在技术底座、处理链路和业务增长层面为企业寻找解法。”

  自研多媒体处理框架BMF ,助力豆包视频生成模型突破业界难题

  据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

  抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战。

  “首先,超大规模视频训练数据集导致计算和处理成本激增,”王悦说,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

  借助Intel的CPU、GPU等不同资源,火山引擎此次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。

  此外,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。值得一提的是,火山引擎本次还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速,更加轻量、通用。

  Bytedance Research 负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

  据了解,豆包视频生成模型PixelDance于9月24日发布,该模型采用 DiT 架构,通过高效的DiT融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题,在业界引起广泛关注。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。

  多项“音视频+AI”技术方案,助力企业全链路适配AIGC时代

  此次活动中,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入了AI的能力。

  火山引擎视频云负责人表示,在AI视频时代,人和AI交互变得更加动态和生动,这要求处理链路更加智能和交互。

  以对话式AI实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。

  在沉浸式消费体验方面,火山引擎通过AI生成3D内容和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音的戏曲直播场景。

  大会上,王悦还透露了字节自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上,还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。

  据悉,该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。(科文)

[ 责编:李欣哲 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 欣欣,你在哪里——缅甸地震中国力量救援纪实

  • 现场视频!解放军台岛周边开展联合演训

独家策划

推荐阅读
近期,多地智慧农业建设传来佳绩,草莓巡检机器人、长臂喷雾机等打破了大众对农业的传统印象,数据要素在助力乡村全面振兴中正发挥越来越重要的作用。推动农村电商发展,支持农村电商平台建设,帮助农民通过电商渠道销售农产品;利用数据分析市场需求,打造电商特色品牌,提高农产品竞争力。
2025-04-02 10:07
2月19日,凌晨3时的机房,敲完最后一行代码,中国海油所属中海油田服务股份有限公司(以下简称“中海油服”)深海深层地震数据成像处理技术研发团队负责人刘金朋如释重负。物探船作业时,利用拖缆产生地震波,对海底地层进行“CT扫描”,并实时完成震源和检波点数据采集。
2025-04-02 10:06
引力波被形象地比喻为“时空的涟漪”。为了更精准地认证透镜引力波,胡彬团队与宁波大学蔡荣根院士将目光瞄准宇宙中更为微小的尺度——星系中的致密天体。
2025-04-02 10:05
冰凌花能够早早绽放,成为东北“报春第一花”,是因为其特殊的生长节律和物候机制  草长莺飞,全国多地春意正浓。冰凌花还具有重要的生态价值,能为昆虫提供早春时节稀缺的花蜜和花粉,成为传粉昆虫不可或缺的食物来源。
2025-04-02 10:01
发挥新型举国体制优势,前瞻规划、协同发力、接续攻坚,中国创新将在“一张蓝图绘到底”中破浪前行  作为尖端科技的代表,芯片是我国受外部冲击较大的领域之一。发挥新型举国体制优势,前瞻规划、协同发力、接续攻坚,中国创新将在“一张蓝图绘到底”中破浪前行。
2025-04-02 10:00
3月30日,2025中国网络媒体论坛“坚持主流价值导向 推动算法向上向善”主题分享会在广西南宁举行。主题分享会上发布了“算法向善”南宁宣言,重点互联网企业代表集体签署。
2025-04-01 09:46
目前全球6G研发已从概念探索进入关键技术攻关阶段,中国围绕2030年实现6G商用这一目标加速布局。
2025-04-01 09:50
AI医疗只是辅助手段。
2025-04-01 09:48
31日,在2025中关村论坛年会“重大科技成果发布活动”上,由北京金融监管局联合市科委、中关村管委会、市经济和信息化局、市委金融办共同指导,全国首个商业航天保险共保体组织——“北京商业航天保险共保体”正式发布,助力北京商业航天加速发展。
2025-04-01 09:47
3月31日,“南海二号”钻井平台在惠州19-6油田海域进行钻探作业。
2025-04-01 09:45
2025中关村论坛年会重大成果专场发布会31日举行,围绕“四个面向”发布19项重大科技成果,展现了我国在前沿科技引领、开源开放合作、创新驱动发展等方面的成效。
2025-04-01 09:41
现场发布2024中国正能量网络精品征集展播活动结果,与会领导为中国正能量十佳网络精品代表、突出贡献单位颁发荣誉证书和纪念牌。
2025-04-01 09:48
主题分享会上发布了“算法向善”南宁宣言,重点互联网企业代表集体签署。
2025-04-01 09:47
今年以来,我国以DeepSeek为代表的大模型企业通过算法优化、有针对性的训练和开源生态协作,在使用“缩水版”GPU芯片的情况下,将千亿参数模型训练成本压缩至同类模型的1/10,走出了一条从粗放式算力堆砌向内生式效能提升的新路径。
2025-03-31 10:21
“联合科研团队初步确定,青龙山恐龙蛋化石普遍表现出特殊排列规律,如常见同层埋藏的恐龙蛋3至5枚一组排列成微微弯曲的弧线,多组弧线近平行展布。
2025-03-31 10:03
由西湖大学孵化的西湖仪器,日前成功实现12英寸碳化硅衬底激光剥离自动化解决方案,大幅降低损耗,提升加工速度,推进了碳化硅行业降本增效。
2025-03-31 10:02
日照两城河口国家湿地公园,一群绿头鸭在水面上自由飞翔。
2025-03-31 10:01
3月28至29日,作为2025中关村论坛年会的重要组成部分,中关村国际技术交易大会“全球高校科技成果转化促进大会”在北京工业大学举行。
2025-03-31 09:59
2025中关村论坛年会于3月27日至31日在北京举办,以“新质生产力与全球科技合作”为年度主题。其中将举办碳达峰碳中和科技、世界绿色设计等论坛,为新质生产力发展注入绿色动能。
2025-03-28 03:30
日前,我国自主研制的最大直径盾构机“沧渊号”成功下线,将承担世界最长公路水下盾构隧道——海太长江隧道工程左线掘进任务。大海古称“沧渊”,海太长江隧道横跨长江入海口,全长39.07公里,其中过江隧道长11.185公里,最大埋深超75米,计划于2028年建成。“沧渊号”开挖直径达16.66米,整机总长176米,总重量超5650吨,再创国产超大直径盾构机新纪录。
2025-03-28 04:00
加载更多