- 移动版

主题：大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型

爱我中华发表于 2024-04-19 09:53

尽管走上行业风口不过一年多时间，但AI大模型的基础研发和应用场景的讨论热度始终高企。到2024年，AI大模型迈入应用元年的声音更是一时甚嚣尘上，行业果真走出这一步了吗？
事实上，鉴于“研发和应用两手抓”需要的能力与资本都巨大，行业之中配得上这一拷问的公司并不多：百度“文心一言”、阿里“通义千问”、昆仑万维“天工”、商汤“日日新”、科大讯飞“星火”等等企业及其大模型，都是牌桌上的有力角逐者。
真正要在其中脱颖而出，不仅需要性能超前的基础大模型，同时也要与之相配、并有“爆品”潜质的产品应用场景。对此，昆仑万维以“天工3.0”和“天工SkyMusic”尝试回答。
4月17日，昆仑万维自研四千亿级大语言模型“天工3.0”正式开启公测并同步开源。这一采用4000亿级参数的MoE混合专家模型，是目前全球模型参数最大、性能最强的MoE模型之一，相较上一代在模型语义理解、逻辑推理等多个性能维度均有明显提升。

技术层之外，这可能也是AI应用领域的潜在引领者之一。与“天工3.0”一同开启公测的还有昆仑万维的AI音乐生成大模型“天工SkyMusic”，该大模型在小范围邀测时已经激起不小的音乐创作浪潮。
而不仅是音乐，“天工3.0”当前已将AI能力集成进搜索、写作、长文本阅读、对话、代码等多个高频应用场景，为大模型领域即将开启的落地应用之战筹备砝码。
至此，一个完整的AI大模型技术与应用生态正在成型。这是AI大模型叙事最重要的章节之一，它可能就此建立一条行业分水岭。
天工SkyMusic，引领AIGC音乐浪潮

自OpenAI将大模型推上行业风口以来，属于中国市场的“百模大战”已经拉开序幕一年有余，进入2024年，行业关注点开始从技术研发向应用落地逐渐倾斜——无可置否，大模型的落地应用才是决定其技术与价值的长尾指标。
就所有内容模态而言，音频内容是相比文本和图片更好理解人类情感的方式，同时，音乐也是人类情感表达最充沛且不受地域和文化限制的内容载体。因此，众多落地场景之中，音乐创作成为普罗大众最易上手和感受到趣味性的AIGC场景。对于AI公司而言，这是一个将自己推向C端市场、获得大众认知的有利机会。
天工SkyMusic正是昆仑万维面向音乐行业发布的大模型，此前于4月2日面向社会开启邀测，今天随天工3.0正式发布。该大模型自邀测阶段就受到行业专家及音乐从业者的广泛关注，它不仅是国内唯一公开可用的AI音乐生成大模型，同时也是中国首款AI音乐大模型SOTA模型，更是中国的自研大模型技术第一次在AIGC领域领跑全球。
在大模型领域中，SOTA模型指的是被认为是“State of the Art”（SOTA）的模型。正如OpenAI被视为文本大模型和视频生成大模型的SOTA，"State of the Art"这个术语通常用于描述某个特定领域或技术中当前最先进、性能最好的技术或方法。
在与海外顶尖的AI音乐大模型Suno V3的横向测评中，天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

目前，AI音乐生成有两大技术路径，分别是符号音乐生成路线和大模型音乐音频生成路线。前者是指先标注大量乐谱，再训练模型，最后生成的结果也是乐谱，需要额外的算法或工具将乐谱转换成音乐；后者则是直接学习并生成音频波形，乐器、人声、旋律、音量、音符等等都一体化端到端生成，但这种方式不仅艰难、成功经验稀缺，还需要高昂的算力和资金。
天工SkyMusic选择的是技术意义上更难的音频生成路线。不仅如此，由于这一路线所覆盖的Song、BGM（Background Music）、Speach三个领域中，Song领域因为包含人声、生成技术难度更高，始终没有出现极佳方案。对此，天工SkyMusic投入大量资源实现了一定技术突破，使得该领域的生成质量终于得到提升。
值得注意是，天工SkyMusic是音乐AIGC领域罕见公开自身技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图，成为了“音频路线+人声Song路线”的重要技术参考。

相较于行业中的同类产品，天工大模型带动天工SkyMusic拥有了更突出的产品优势。
例如，其拥有独创的参考音乐生成与方言歌曲生成的能力。参考音乐生成是指，用户可上传自有参考音乐，或选择“天工SkyMusic”资料库中现有的参考音乐，从而生成风格、唱腔类似的歌曲，这种能力能够结合创意、技术和音乐制作技巧，让用户利用现有的音频资源来创作出更加丰富多彩的音乐作品；
方言歌曲生成能力包含粤语、成都话、北京话、上海话等，这不仅能扩大其受众范围，还能加强音乐创作生成的多样性。同时，基于强大的数据库及训练模型，天工SkyMusic还可打造出更具辨识度的自然人声，这也将使其区别于普通音乐AIGC产品较浓的“AI人声质感”。
此外，天工SkyMusic可通过歌词控制情绪变化，实现如颤音、歌剧、吟唱等多种歌唱技巧，还支持创作说唱、民谣、放克、古风、电子等多种音乐风格。
这种音乐创作上的灵活性和普适性，为天工SkyMusic的创作成果带来了更多趣味。在其公布的大量demo中，《龙行龘龘》演绎了戏曲唱腔与电子音乐如何完美融合；《悟空》从歌词上贴合了人物本身的传奇色彩与不羁性格，其独特理解与领悟最终与旋律合二为一；《Pack my bags》则诠释了欧美流行音乐的精妙之处，其女声唱腔兼具欧美女歌手的音色与技巧。
借此，天工SkyMusic得以大幅降低音乐创作的门槛，让每个用户都能够更加容易创作属于自己的旋律和歌曲，这使其有望成为行业中最重要的全民音乐创作工具之一。而随着该音乐大模型的不断进化，它还有可能加入专业音乐人改善创作质量、提高创作效率的辅助进程中，逐步推动建立属于自己的AI音乐创作者生态。
开源MoE大模型的时代来临

事实上，天工SkyMusic只是昆仑万维迈向AIGC大千世界的第一站。自天工3.0发布后，这一大模型将覆盖听、说、读、写、画、唱等更多高频AIGC应用场景，正式开启一个多模态大模型时代。
从单一模态逐渐过渡到多模态，进而构建世界模型，是业界共识度最高的，迈向AGI的演进路径。而在OpenAI展现GPT-4和GPT-4V的能力之后，行业便一直在等候一个更具场景覆盖力的多模态大模型，将大模型技术的应用现实进展再往前推一把。
昆仑万维“天工3.0”正是登场于这样的背景之下。“天工3.0”采用了4000亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一，并已同步选择开源。相较上一代，其在模型语义理解、逻辑推理、通用性、泛化性等领域均有明显提升。
具体而言，“天工3.0”的模型能力提升集中于逻辑推理能力、语义理解能力、专项Agent训练和内容创作能力四大方面。逻辑推理方面，“天工3.0”数学与推理能力均提升超过30%；语义理解则能够更好理解和处理用户自然语言Query中的复杂语义信息，包括隐喻、多义词等。
专项Agent训练是此次模型能力提升的核心。当前，AI Agent（智能体）已经成为大模型技术的主流落地方向，而“天工3.0”针对模型独立规划、调用、组合外部工具及信息的模型Agent能力进行了专项训练，使其能够独立生成并调用代码，完成包括图表绘制、工具调用、语义判断等多项复杂用户需求。

自此，“天工3.0”成为具备多个领域专业知识和能力的全能专家。它能够对复杂任务进行拆解优化，更深入理解用户需求，也具备实时判断并调用专用模式扩展基座模型的能力，最大程度提升模型性能。诸如产业研究、产品横评、信息分析、图片生成、

下一页 (1/2)

回帖(4)：

4 ^# srwam
04-20 17:16

了解一下

3 ^# srwam
04-20 17:16

来看看

2 ^# ddwg0818
04-20 01:32

顺便了解一下

1 ^# ddwg0818
04-20 01:32

只是来看看

全部回帖(4)»