首页| 论坛| 搜索| 消息
主题:大模型迈入应用元年 昆仑万维推出中国首个音乐SOTA模型
爱我中华发表于 2024-04-19 09:53
尽管走上行业风口不过一年多时间,但AI大模型的基础研发和应用场景的讨论热度始终高企。到2024年,AI大模型迈入应用元年的声音更是一时甚嚣尘上,行业果真走出这一步了吗?
事实上,鉴于“研发和应用两手抓”需要的能力与资本都巨大,行业之中配得上这一拷问的公司并不多:百度“文心一言”、阿里“通义千问”、昆仑万维“天工”、商汤“日日新”、科大讯飞“星火”等等企业及其大模型,都是牌桌上的有力角逐者。
真正要在其中脱颖而出,不仅需要性能超前的基础大模型,同时也要与之相配、并有“爆品”潜质的产品应用场景。对此,昆仑万维以“天工3.0”和“天工SkyMusic”尝试回答。
4月17日,昆仑万维自研四千亿级大语言模型“天工3.0”正式开启公测并同步开源。这一采用4000亿级参数的MoE混合专家模型,是目前全球模型参数最大、性能最强的MoE模型之一,相较上一代在模型语义理解、逻辑推理等多个性能维度均有明显提升。

技术层之外,这可能也是AI应用领域的潜在引领者之一。与“天工3.0”一同开启公测的还有昆仑万维的AI音乐生成大模型“天工SkyMusic”,该大模型在小范围邀测时已经激起不小的音乐创作浪潮。
而不仅是音乐,“天工3.0”当前已将AI能力集成进搜索、写作、长文本阅读、对话、代码等多个高频应用场景,为大模型领域即将开启的落地应用之战筹备砝码。
至此,一个完整的AI大模型技术与应用生态正在成型。这是AI大模型叙事最重要的章节之一,它可能就此建立一条行业分水岭。
天工SkyMusic,引领AIGC音乐浪潮

自OpenAI将大模型推上行业风口以来,属于中国市场的“百模大战”已经拉开序幕一年有余,进入2024年,行业关注点开始从技术研发向应用落地逐渐倾斜——无可置否,大模型的落地应用才是决定其技术与价值的长尾指标。
就所有内容模态而言,音频内容是相比文本和图片更好理解人类情感的方式,同时,音乐也是人类情感表达最充沛且不受地域和文化限制的内容载体。因此,众多落地场景之中,音乐创作成为普罗大众最易上手和感受到趣味性的AIGC场景。对于AI公司而言,这是一个将自己推向C端市场、获得大众认知的有利机会。
天工SkyMusic正是昆仑万维面向音乐行业发布的大模型,此前于4月2日面向社会开启邀测,今天随天工3.0正式发布。该大模型自邀测阶段就受到行业专家及音乐从业者的广泛关注,它不仅是国内唯一公开可用的AI音乐生成大模型,同时也是中国首款AI音乐大模型SOTA模型,更是中国的自研大模型技术第一次在AIGC领域领跑全球。
在大模型领域中,SOTA模型指的是被认为是“State of the Art”(SOTA)的模型。正如OpenAI被视为文本大模型和视频生成大模型的SOTA,"State of the Art"这个术语通常用于描述某个特定领域或技术中当前最先进、性能最好的技术或方法。
在与海外顶尖的AI音乐大模型Suno V3的横向测评中,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

目前,AI音乐生成有两大技术路径,分别是符号音乐生成路线和大模型音乐音频生成路线。前者是指先标注大量乐谱,再训练模型,最后生成的结果也是乐谱,需要额外的算法或工具将乐谱转换成音乐;后者则是直接学习并生成音频波形,乐器、人声、旋律、音量、音符等等都一体化端到端生成,但这种方式不仅艰难、成功经验稀缺,还需要高昂的算力和资金。
天工SkyMusic选择的是技术意义上更难的音频生成路线。不仅如此,由于这一路线所覆盖的Song、BGM(Background Music)、Speach三个领域中,Song领域因为包含人声、生成技术难度更高,始终没有出现极佳方案。对此,天工SkyMusic投入大量资源实现了一定技术突破,使得该领域的生成质量终于得到提升。
值得注意是,天工SkyMusic是音乐AIGC领域罕见公开自身技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图,成为了“音频路线+人声Song路线”的重要技术参考。

相较于行业中的同类产品,天工大模型带动天工SkyMusic拥有了更突出的产品优势。
例如,其拥有独创的参考音乐生成与方言歌曲生成的能力。参考音乐生成是指,用户可上传自有参考音乐,或选择“天工SkyMusic”资料库中现有的参考音乐,从而生成风格、唱腔类似的歌曲,这种能力能够结合创意、技术和音乐制作技巧,让用户利用现有的音频资源来创作出更加丰富多彩的音乐作品;
方言歌曲生成能力包含粤语、成都话、北京话、上海话等,这不仅能扩大其受众范围,还能加强音乐创作生成的多样性。同时,基于强大的数据库及训练模型,天工SkyMusic还可打造出更具辨识度的自然人声,这也将使其区别于普通音乐AIGC产品较浓的“AI人声质感”。
此外,天工SkyMusic可通过歌词控制情绪变化,实现如颤音、歌剧、吟唱等多种歌唱技巧,还支持创作说唱、民谣、放克、古风、电子等多种音乐风格。
这种音乐创作上的灵活性和普适性,为天工SkyMusic的创作成果带来了更多趣味。在其公布的大量demo中,《龙行龘龘》演绎了戏曲唱腔与电子音乐如何完美融合;《悟空》从歌词上贴合了人物本身的传奇色彩与不羁性格,其独特理解与领悟最终与旋律合二为一;《Pack my bags》则诠释了欧美流行音乐的精妙之处,其女声唱腔兼具欧美女歌手的音色与技巧。
借此,天工SkyMusic得以大幅降低音乐创作的门槛,让每个用户都能够更加容易创作属于自己的旋律和歌曲,这使其有望成为行业中最重要的全民音乐创作工具之一。而随着该音乐大模型的不断进化,它还有可能加入专业音乐人改善创作质量、提高创作效率的辅助进程中,逐步推动建立属于自己的AI音乐创作者生态。
开源MoE大模型的时代来临

事实上,天工SkyMusic只是昆仑万维迈向AIGC大千世界的第一站。自天工3.0发布后,这一大模型将覆盖听、说、读、写、画、唱等更多高频AIGC应用场景,正式开启一个多模态大模型时代。
从单一模态逐渐过渡到多模态,进而构建世界模型,是业界共识度最高的,迈向AGI的演进路径。而在OpenAI展现GPT-4和GPT-4V的能力之后,行业便一直在等候一个更具场景覆盖力的多模态大模型,将大模型技术的应用现实进展再往前推一把。
昆仑万维“天工3.0”正是登场于这样的背景之下。“天工3.0”采用了4000亿级参数MoE混合专家模型,是全球模型参数最大、性能最强的MoE模型之一,并已同步选择开源。相较上一代,其在模型语义理解、逻辑推理、通用性、泛化性等领域均有明显提升。
具体而言,“天工3.0”的模型能力提升集中于逻辑推理能力、语义理解能力、专项Agent训练和内容创作能力四大方面。逻辑推理方面,“天工3.0”数学与推理能力均提升超过30%;语义理解则能够更好理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。
专项Agent训练是此次模型能力提升的核心。当前,AI Agent(智能体)已经成为大模型技术的主流落地方向,而“天工3.0”针对模型独立规划、调用、组合外部工具及信息的模型Agent能力进行了专项训练,使其能够独立生成并调用代码,完成包括图表绘制、工具调用、语义判断等多项复杂用户需求。

自此,“天工3.0”成为具备多个领域专业知识和能力的全能专家。它能够对复杂任务进行拆解优化,更深入理解用户需求,也具备实时判断并调用专用模式扩展基座模型的能力,最大程度提升模型性能。诸如产业研究、产品横评、信息分析、图片生成、
下一页 (1/2)
回帖(4):
4 # srwam
04-20 17:16
了解一下
3 # srwam
04-20 17:16
来看看
2 # ddwg0818
04-20 01:32
顺便了解一下
1 # ddwg0818
04-20 01:32
只是来看看

全部回帖(4)»
最新回帖
收藏本帖
发新帖