- 移动版

主题：对话大厂算法工程师：AI 时代，算法从不是为了制造茧房

爱我中华发表于 2026-02-27 20:07

层是创作者选择了平台，他们互为因果的。如果今天你这个平台的创作者都走了，用户是不可能独存的，用户一定会跟着创作者走。
我们在创作者端会做一个事叫做“冷启动”：如果你是一个平台的新作者，上传的前几个稿件会给一个比较高的流量，保底流量会给比如说 1000 播放；如果你创作能力比较好，你不会被埋没，不会因为是个素人创作者，没有用户看你。
有人会问：某一天推荐算法做了一个上线之后，原来可以达到 10 万播放的，现在只能拿到一万播放。这怎么回事儿？但现实中不会这样。我们迭代可能一次只能有千分之一的变化，对于某个品类来说，可能只有千分之五的变化。一年当中能够产生大流量变化的迭代非常少，对全局来说可能也就百分之一的幅度变化。
另外一个逻辑来说，想做这么大影响的迭代也很难。因为技术是缓慢推进的，一年中这样大的技术突破一双手可以数得出来的，所有公司应该都是小步快跑的逻辑在做迭代，就算是有大的迭代，同时我们有非常多指标去追踪系统的稳定性，比如说万粉作者的平均播放量是多少？每一个品类稿件的流量占比是多少？包括用户的平均使用时长、平均播放、平均兴趣数，有非常多指标在跟进，希望这些指标都是往好的方向变。
重轻：你说了这么多，我意识到一个以推荐算法为核心的内容分发平台，比我以为的要稳重得多，不会允许任何一个维度上出现很武断、天翻地覆的变化，即使推动一个大的变化，也要一步一步来。
风霁：是的，算法怎么确保我们每一次迭代是对的？我们会上实验，用一个均等的流量，比如分 10% 的流量， 5% 用户生效的是过去的策略， 5% 的用户生效的是改动策略，改动是简单、清晰、可解释的。然后我们去看非常多的指标，用户侧、作者侧、生态侧指标，我们会去看头部数据的稿件是什么样的，中腰部出的稿件是什么？有一些专项迭代里面，我们会看涨粉多的作者是谁？如果说这些指标都是好的，会放更大的流量去验这个事。如果也OK，就推全了。参数都是可记录的。
03
比起推荐算法，用户审美更影响平台内容
汉洋：我可不可以认为，在你的价值观里面，用户审美变化的影响力要远远大于推荐算法的影响力？
风霁：是这样的。比如说从最开始的短视频，可能就是跟拍，模仿明星这样的内容。后来有一些剧情向、三农的内容，这些都是新的需求和新的创作者来了。假设用户量级不变，原来内容一定是会有挤占的，但这个事情对用户是不是好的呢？对用户是好的，因为他有更多可丰富的内容可以看了。
我们做的一些事会不会对趋势有影响？会有。比如说假设系统过去没有收藏目标，现在加了个收藏目标，明显知识课程类的就会变多。观众对于知识类视频喜欢收藏。
重轻：用户闲暇和用户心智的变化是根本的。不是说你互联网公司想调一下算法，就能改变的。
风霁：对，我现在听碎片知识的获得感已经比 10 年前弱了，那今天就是需要更多深度知识，这也是优质视频播客，包括优质中长视频的机会。大家对短视频的要求也更高了，需要看更专业的舞蹈，需要剧情没有那么尬，更加自然，这都是一个自然演进的趋势。
04
推荐系统无需理解内容，最新应用大模型去理解内容
汉洋：那你们每天处理的是多大量级的一个工作？
风霁：中国互联网每天新上传的视频肯定是亿量级的。观看数量，如果多个平台加一起，人均至少是看100个视频，也就是观看可能是千亿量级。
重轻：这么大的视频参数量，每一段上传、观看的视频里面所隐含的需求和人性，那些我们无法言说的知识，全都在算法模型里。
风霁：没有那么恐怖，这个模型可能是万亿级别的参数，里面都是数字，我也不知道它代表什么。我们在模型对每个用户做一个表征，你在那个模型里面是什么呢？其实是一串数字，这个数字在不同平台不一样，但是一般来说可能是几百个数字或者几千个数字。
重轻：我感觉还挺少、挺节约的？
风霁：对，就是挺节约的。同时会把用户在平台上发生的几万或者上百万个行为记录下来，每一个行为是一个几十维到几百维的数字。具体记录多少行为，看各家的算法。
如果只从用户表征来说，是几百位到几千位的数字，一个视频在系统里是一个几百维的浮点数字，一个作者也可能是一个几百位的表征，这些表征占了模型存储的大头。
我们会把你过去的历史行为放到模型里，刚开始，可能有最近 100 个行为，后来到 1000 个、1万个，以及现在可能过去你 100 万个历史行为，都以某种工程方式参与到模型的计算过程中。
重轻：这个用户表征是什么？就比如汉洋是个男的，多大岁数，喜欢什么不喜欢什么，会有一张这样的表吗？
风霁：它是一个蕴含信息，是一个自动学习出来的数字，我们不知道它代表什么。原理跟今天的大模型一样，大模型可能是一个 64 层的神经网络，你随便抽测一层，是一个几万维的数字，那这数字代表什么呢？我也不知道。假设性别男女，在大模型里分别代表了一个 4000 维的向量，你其实不知道哪个代表男、哪个代表女。我只能知道这个数字，但我不知道数字是什么含义。
汉洋：所以人们脑中对于推荐系统的想象，系统会给我打成一堆标签，说我喜欢钓鱼，是不存在的？
风霁：标签有可能打错。这个还有一部分，但是比重没那么重，而且在越来越低。
重轻：假设我是你领导，现在提了一个要求，要把露营有关的内容使劲往上提，那你的抓手是什么呢？
风霁：视频是不是露营的内容，还是知道的。我回过头来说一下，整个投稿过程都发生了什么。用户在投稿之后，系统首先给你推荐一个封面，现在比较新的技术是直接用大模型去提取你的视频抽帧，把你的音频文字提取出来，去识别内容是否合规，符合法律法规，每个平台都会有一些规定，相当于先过机审。
如果发现有一定风险的内容，到人工审核那儿背对背盲审，如果都觉得这个视频有问题，就会被打回，作者要重新修改；如果都觉得没问题，就进入推荐系统进行分发。这个视频未来如果有了一定热度，可能还会让人工再审一遍。这之后，视频还会经过内容理解模型，对视频打上一些标签，这是一个露营的还是猫狗的，这样的视频描述，在向量维度变成一个几百维的数字，送到我们的模型里面。
传统的推荐链路，第一环是召回，从几千万或几百万的池子里，通过刚刚说的向量输入，找出跟你最可能匹配的几万个或几百个视频，然后再通过之前说过的多目标排序模型，输出各个目标的预估分数，比如说点击的概率、点赞的概率、长期价值的概率，多个概率经过一个融合函数，加权在一起，对这几百个视频做个排序，最后把得分最高的展现给你。
中间还有一层叫做重排层。这个重排层，第一保证这些视频是有多样性的，不能都一个主题，这样你的体验不好。最好保证每个主题都出一两个。同时我们也会衍生一些兴趣探索的目标，保证你的兴趣不收窄，最后退化成一两个兴趣——算法希望你的兴趣越来越多。再上面可能还会有一层，就是其他业务，比如说还要跟广告、直播、短剧等多个题材，让它们中间穿插一个合适的比例，让公司在用户体验和营收上面达到平衡。
最后这个用户会看到视频，发生互动，用户的行为再回传到系统，作为模型的输入来训练这个模型，让这个模型逐渐学习这个用户的偏好，积累对视频的看法。
重轻：你刚才说的所有这一切，发生在多长时间里？
风霁：每个公司不一样，但我觉得可能对业界的这个水平来说，快的话可能就几分钟，慢的话可能也就是一两个小时。
重轻：过去这 24 小时有1亿个视频传上来，我要看其中的 100 个，你

回帖(11)：

11 ^# hanxiao129
02-28 14:26

楼主分享非常不错的

10 ^# hanxiao129
02-28 14:25

了解一下内幕

9 ^# hanxiao129
02-28 14:24

不错的导读，谢谢楼主分享

8 ^# z3960
02-28 06:33

了解信息

7 ^# z3960
02-28 06:33

看看资讯

6 ^# 任逍遥
02-28 02:11

不错，了解了

5 ^# 任逍遥
02-28 02:11

也就看看

4 ^# 任逍遥
02-28 02:11

来看一下

3 ^# huwg
02-28 01:26

谢谢分享

2 ^# huwg
02-28 01:26

了解一下

全部回帖(11)»