AGI时代：从技术范式到商业模式

#媒体热点# 2024-4-26 20:29 278人围观媒体热点

来源：Agent的潜意识
AGI是一场生产力的变革。如果说大语言模型是蒸汽机，则AGI就是一场工业革命。在这一新质生产力革命进程中，技术是驱动引擎，深入理解技术，才能更好的切到业务的蛋糕；就像赛车手，他知道发动机引擎的操控逻辑，才能在弯道超车。
我们先聊技术范式，再来谈商业模式。

一、scaling law的真正原因
从小到大，经历无数次考试，我们常识里就知道，判断对错题拿分简单，瞎选也有一半分；单选题 4选一就难了，需要各个答案鉴别；如果是十选一那就更难。这个逻辑是成立的。对机器学习来说也一样。从图像分类来看：如果分十个类别，相当于是十选一的单选题；imagenet的数据集是1000个类别，就是1000中选一个了。而大语言模型是多少呢？他是从十万多的词汇表中选一个最可能的token，分类数增加一个，他的难度都是指数级增长。从数学概率论的视角来看，就是softmax 回归的shape越大，需要指数级增加的数据集样本才能训练充分；因为条件概率分布P(Ai|(A1A2……A十万,输入text)中，A的个数增加，则输入的text 和 A的组合数就指数增加的。需要用大数据量来一一计算概率，才能排除掉其他可能，得到真主Ai。
为了得到这样规模的完全分布，里面的数理逻辑的表达是比较复杂的，因此需要大模型参数，参数越大，他能表达的数学逻辑就越多；同时需要大数据量来提供完全分布，才可以训练充分。为了寻找达到这一目的的路径，openai 这帮人就发现，只要是transformer，宽度和深度不需要设计排列组合，参数量差不多的话，model能表达的数学逻辑是基本一样的。因此就省心去找更合适的模型架构了。直接暴力增加深度，增大数据集，就完成了这一巨大任务：从十万个选项中选一个真主答案的选择题任务。

二、Sora离真正的text2video的GPT4时刻究竟差多远
我们来基本预估下text2video需要多大规模的训练集。之前分析过
Sora技术6:深入谷歌videopoet理解全模态视频生成
经典图像分类工程中，imagenet数据集，共1000个类别，你可以认为是token的Codebook是1000 的size，然后总数据集是128万，合每个类别1300张图片的样子。这个类比的意思是，一个token的全分布概率计算，需要1300个样例来统计。
GPT1的词典大小是40,478 个，GPT-2的词典大小为50257个，因此词典差别不是很大，那么我们姑且假定GPT4的词典大小为6万，他的数据集呢，是13万亿个 token，也就是每个token有2亿个样例来计算全分布概率才能达到GPT4的效果。
Videopoet的Codebook大小是27万，词典过大，会造成embedding matrix巨大，会带来存储和时间的复杂度。因此，短期内视频生成任务不能达到GPT4的水平的，因为Codebook过大了。一个类比计算就是：
Codebook size 1000的时候，需要1300个样例来算全分布。
Codebook size 60000的时候，需要2亿个样例来算全分布。是1300的15万倍。而Codebook size 只是变大了60倍。也就是膨胀比是2300倍。
Codebook size 27万的时候，那么他是6万的4.3倍，需要多少token？那就是4.3*2300*2亿。这么庞大的数据量是没法计算的。
因此，可以毫不夸张的说，sora放出来的demo，只是一个局部分布训练到了一个小局部最优解（鞍点）上的某个角落而已，他还不能达到全分布的局部最优解。也就是说sora只是在几个案例上能合成优秀视频，如果真的洪泛攻击散开了让大众随意测试，基本不可能达到chatGPT的能力的。
解决这一难题，一方面需要scalaing law，这是最土的方法；另一方面核心的是降低codebook的size。这是迈向AGI的关键一步。

三、落地究竟有多难？通用和垂类：两片水域
只要是通用大模型，不管他刷了多少数据集评测榜单，他终究还是一个实验室产品，因为他训练的是公开数据集，公开数据集本身就存在语义混乱的情况，他就没办法进入严肃的职场环境解决现实问题。Imagenet上的训练的分类模型，也不能直接拿来做工业视觉上的缺陷检测：这个斑点属于CPU正常的噪点，这个坑点是CPU制程的缺陷。这就需要重新构建真实数据集来真实训练一个分类模型才可以。
通用大模型也是这样的，他离落地的最后一公里是有gap的。随便举个例子，如果让通用大模型来回答医疗问题，我估计业内人士都是不放心的。而真实的业务场景就是这样的。他不是一个闲聊的助手。他需要严格保证质量。
因此，垂类模型当前紧要解决的问题是回答收敛问题。其次，还有主动发问的情况。就是一个真实的医生，他是需要主动望闻问切的，主动去挖掘患者的病情，而当下的大模型是做不到的。因此垂类大模型就是需要紧密结合业务另寻出路。

四、为什么需要自主训练垂类大模型
基座是所有codebook的全量数据分布，由于公开数据集里存在许多糟粕，例如科大讯飞那次学习机事件，本质是他的底座训练集中出现了很多敌对意识形态的数据；他基座训练过程中吃进去的数据，得到的就是一个codebook的全量分布；这个全量分布底座歪了，在他基础上长出来的应用，或多或少，时不时会冒出一些古怪输出。
因此，我们需要训练一个垂域的底座大模型。这个大模型怎么训练呢？
第一是降低codebook大小。如果我们是做医学问诊的，那么，我们肯定不需要代码codebook的，这些代码的token就可以摘掉；第二是建一个大小适中，垂域数据充分的数据集。我们只有垂域数据集，就有可能不能覆盖整个数据的全分布；只有公开数据集，就对垂类了解不充分。因此需要综合考虑。第三个就是适中的模型大小。做一个垂类大模型，我们就是训练一个南翔技校的挖掘机工人，他开挖掘机干活干的又快又好；而不是训练一个北大的通才，他居庙堂之高则忧其民，胸怀世界。

五、LLM装进1080显卡：迎接百花齐放的垂类大模型
成本决定了落地的关键。首先要成本小，模型不能太大；其次把高并发打起来。这个也是降低落地成本的。
最关键的是，每个行业每个角落都需要有一个专门干这一个活的垂类大模型。真正落地的大模型不是操作系统，他不需要大而全；他要的是小而精，在这个领域上，他的知识面非常精准，能闭环解决问题，
比如说在智能汽车座舱领域，他可以很精准的回答汽车的操控指南；例如，他可以回答儿童锁在哪里操作，这个每个车都不一样的，通用大模型是回答不了的。
然后是降低功耗。功耗太大，推理需要4090是不合适的。4090近500w功耗，太烧电。还需要更低成本部署。哪天1080这样的老显卡也能跑了，行业就是春天了。

总结
真正的商业模式，得深耕一个垂域，在这个垂域训练自己的大模型，算法效果上能做到闭环。然后降低部署成本，才能真正是挣钱的新质生产力。
目前来看，text2video还不足以达到商业化产品的标准。离真正落地还有困难的。然后这个方向的科研任务还很重，短期一年内看不到类似GPT4的产品出现。
一家之言。

文章来源:“Agent的潜意识”，未经允许不得转载。

文章代表作者观点，版权归原作者所有，热传平台仅提供信息存储空间服务。