层是创作者选择了平台,他们互为因果的。如果今天你这个平台的创作者都走了,用户是不可能独存的,用户一定会跟着创作者走。
我们在创作者端会做一个事叫做“冷启动”:如果你是一个平台的新作者,上传的前几个稿件会给一个比较高的流量,保底流量会给比如说 1000 播放;如果你创作能力比较好,你不会被埋没,不会因为是个素人创作者,没有用户看你。
有人会问:某一天推荐算法做了一个上线之后,原来可以达到 10 万播放的,现在只能拿到一万播放。这怎么回事儿?但现实中不会这样。我们迭代可能一次只能有千分之一的变化,对于某个品类来说,可能只有千分之五的变化。一年当中能够产生大流量变化的迭代非常少,对全局来说可能也就百分之一的幅度变化。
另外一个逻辑来说,想做这么大影响的迭代也很难。因为技术是缓慢推进的,一年中这样大的技术突破一双手可以数得出来的,所有公司应该都是小步快跑的逻辑在做迭代,就算是有大的迭代,同时我们有非常多指标去追踪系统的稳定性,比如说万粉作者的平均播放量是多少?每一个品类稿件的流量占比是多少?包括用户的平均使用时长、平均播放、平均兴趣数,有非常多指标在跟进,希望这些指标都是往好的方向变。
重轻:你说了这么多,我意识到一个以推荐算法为核心的内容分发平台,比我以为的要稳重得多,不会允许任何一个维度上出现很武断、天翻地覆的变化,即使推动一个大的变化,也要一步一步来。
风霁:是的,算法怎么确保我们每一次迭代是对的?我们会上实验,用一个均等的流量,比如分 10% 的流量, 5% 用户生效的是过去的策略, 5% 的用户生效的是改动策略,改动是简单、清晰、可解释的。然后我们去看非常多的指标,用户侧、作者侧、生态侧指标,我们会去看头部数据的稿件是什么样的,中腰部出的稿件是什么?有一些专项迭代里面,我们会看涨粉多的作者是谁?如果说这些指标都是好的,会放更大的流量去验这个事。如果也OK,就推全了。参数都是可记录的。
03
比起推荐算法,用户审美更影响平台内容
汉洋:我可不可以认为,在你的价值观里面,用户审美变化的影响力要远远大于推荐算法的影响力?
风霁:是这样的。比如说从最开始的短视频,可能就是跟拍,模仿明星这样的内容。后来有一些剧情向、三农的内容,这些都是新的需求和新的创作者来了。假设用户量级不变,原来内容一定是会有挤占的,但这个事情对用户是不是好的呢?对用户是好的,因为他有更多可丰富的内容可以看了。
我们做的一些事会不会对趋势有影响?会有。比如说假设系统过去没有收藏目标,现在加了个收藏目标,明显知识课程类的就会变多。观众对于知识类视频喜欢收藏。
重轻:用户闲暇和用户心智的变化是根本的。不是说你互联网公司想调一下算法,就能改变的。
风霁:对,我现在听碎片知识的获得感已经比 10 年前弱了,那今天就是需要更多深度知识,这也是优质视频播客,包括优质中长视频的机会。大家对短视频的要求也更高了,需要看更专业的舞蹈,需要剧情没有那么尬,更加自然,这都是一个自然演进的趋势。
04
推荐系统无需理解内容,最新应用大模型去理解内容
汉洋:那你们每天处理的是多大量级的一个工作?
风霁:中国互联网每天新上传的视频肯定是亿量级的。观看数量,如果多个平台加一起,人均至少是看100个视频,也就是观看可能是千亿量级。
重轻:这么大的视频参数量,每一段上传、观看的视频里面所隐含的需求和人性,那些我们无法言说的知识,全都在算法模型里。
风霁:没有那么恐怖,这个模型可能是万亿级别的参数,里面都是数字,我也不知道它代表什么。我们在模型对每个用户做一个表征,你在那个模型里面是什么呢?其实是一串数字,这个数字在不同平台不一样,但是一般来说可能是几百个数字或者几千个数字。
重轻:我感觉还挺少、挺节约的?
风霁:对,就是挺节约的。同时会把用户在平台上发生的几万或者上百万个行为记录下来,每一个行为是一个几十维到几百维的数字。具体记录多少行为,看各家的算法。
如果只从用户表征来说,是几百位到几千位的数字,一个视频在系统里是一个几百维的浮点数字,一个作者也可能是一个几百位的表征,这些表征占了模型存储的大头。
我们会把你过去的历史行为放到模型里,刚开始,可能有最近 100 个行为,后来到 1000 个、1万个,以及现在可能过去你 100 万个历史行为,都以某种工程方式参与到模型的计算过程中。
重轻:这个用户表征是什么?就比如汉洋是个男的,多大岁数,喜欢什么不喜欢什么,会有一张这样的表吗?
风霁:它是一个蕴含信息,是一个自动学习出来的数字,我们不知道它代表什么。原理跟今天的大模型一样,大模型可能是一个 64 层的神经网络,你随便抽测一层,是一个几万维的数字,那这数字代表什么呢?我也不知道。假设性别男女,在大模型里分别代表了一个 4000 维的向量,你其实不知道哪个代表男、哪个代表女。我只能知道这个数字,但我不知道数字是什么含义。
汉洋:所以人们脑中对于推荐系统的想象,系统会给我打成一堆标签,说我喜欢钓鱼,是不存在的?
风霁:标签有可能打错。这个还有一部分,但是比重没那么重,而且在越来越低。
重轻:假设我是你领导,现在提了一个要求,要把露营有关的内容使劲往上提,那你的抓手是什么呢?
风霁:视频是不是露营的内容,还是知道的。我回过头来说一下,整个投稿过程都发生了什么。用户在投稿之后,系统首先给你推荐一个封面,现在比较新的技术是直接用大模型去提取你的视频抽帧,把你的音频文字提取出来,去识别内容是否合规,符合法律法规,每个平台都会有一些规定,相当于先过机审。
如果发现有一定风险的内容,到人工审核那儿背对背盲审,如果都觉得这个视频有问题,就会被打回,作者要重新修改;如果都觉得没问题,就进入推荐系统进行分发。这个视频未来如果有了一定热度,可能还会让人工再审一遍。这之后,视频还会经过内容理解模型,对视频打上一些标签,这是一个露营的还是猫狗的,这样的视频描述,在向量维度变成一个几百维的数字,送到我们的模型里面。
传统的推荐链路,第一环是召回,从几千万或几百万的池子里,通过刚刚说的向量输入,找出跟你最可能匹配的几万个或几百个视频,然后再通过之前说过的多目标排序模型,输出各个目标的预估分数,比如说点击的概率、点赞的概率、长期价值的概率,多个概率经过一个融合函数,加权在一起,对这几百个视频做个排序,最后把得分最高的展现给你。
中间还有一层叫做重排层。这个重排层,第一保证这些视频是有多样性的,不能都一个主题,这样你的体验不好。最好保证每个主题都出一两个。同时我们也会衍生一些兴趣探索的目标,保证你的兴趣不收窄,最后退化成一两个兴趣——算法希望你的兴趣越来越多。再上面可能还会有一层,就是其他业务,比如说还要跟广告、直播、短剧等多个题材,让它们中间穿插一个合适的比例,让公司在用户体验和营收上面达到平衡。
最后这个用户会看到视频,发生互动,用户的行为再回传到系统,作为模型的输入来训练这个模型,让这个模型逐渐学习这个用户的偏好,积累对视频的看法。
重轻:你刚才说的所有这一切,发生在多长时间里?
风霁:每个公司不一样,但我觉得可能对业界的这个水平来说,快的话可能就几分钟,慢的话可能也就是一两个小时。
重轻:过去这 24 小时有1亿个视频传上来,我要看其中的 100 个,你

