大模型，开始“抢人” 2023-05-16 11:16:05

大模型越来越火，抢人大战愈演愈烈。

在AIGC、ChatGPT的带动下，大模型概念开始被广泛讨论。2023年还未过半，就已经有包括百度、阿里、腾讯、商汤、京东、科大讯飞等多家互联网、AI公司陆续宣布对大模型展开探索。

诚然，在大模型的技术和商业化进程上，国内相较于国外仍有一定差距。因此，大厂们毫不吝啬地开出百万年薪来争夺算法、深度学习等高级技术人才。

除此之外，大模型在中国这片土壤上要如何生长，其商业化进程又需要突破哪些瓶颈呢?

越来越“大”的大模型

AIGC和ChatGPT等热词带动下，大模型概念逐渐被关注。不过，大模型到底是什么，又能做什么，对很多人来说，这个问题的答案似乎很模糊。

一位中国传媒大学计算机技术硕士，在知乎上这样描述了大模型:如果说模型是一个盒子，那么普通模型就是一个小盒子，因为容量有限，所以其处理和存储的数据、信息也有限。因此，普通模型可以完成分类、预测、生成等简单任务;相较之下，大模型就是一个超级大仓库，往往需要数十亿，甚至上百亿个参数组成，可以完成更高级的思考和决策。比如，自然语言理解、语音识别、图像识别等。

而这个大模型，到底有多“大”?举例来说，GPT-4使用了1750亿规模的参数，微软推出的Turing-NLG有1000亿参数，谷歌则推出号称有1.6万亿模型参数的switch transformer。作为对照，我们日常使用的智能语音通常只有几个亿的参数。

虽然，在模型参数的规模上，国内产品似乎仍落后一步——例如，率先推出文心一言的百度有100亿参数、华为盘古大模型使用1000亿参数。不过，过去的几个月，陆续加速布局大模型的国内公司却如雨后春笋，其中包括阿里的通义大模型、腾讯的混元大模型、科大讯飞的讯飞星火、京东的ChatJD等等。

从目前国内推出的几款大模型产品来看，我们似乎仍在等待和寻找自己的“iPhone时刻”。无论是百度的文心一言、华为的盘古大模型，还是科大讯飞的讯飞星火，似乎仍停留在从自己原本的优势入手的“集大成者”，相对缺少更多的创新。

像是以搜索引擎为所长的百度，推出了类似GPT-3这样具备搜索属性的文心一言。

华为的盘古大模型则更加专注于自己比较有优势的TO B业务。在发布会上，华为也表示，在过去的2022年，华为盘古大模型主要是AI for Industry（AI赋能产业），为煤矿、水泥、电力、金融、农业等行业创造了更多产业价值，其中CV大模型早就有了许多用武之地。

比如在与能源公司合作的盘古矿山大模型案例中，矿井现场是一个40米长的采掘机，宽度仅2米左右，传统相机很难一下子捕捉到全部画面，只能用图中的九宫格视频画面。而通过5G AI全景视频拼接综采画面卷，传输到地面，地面工作人员将来可以实现地面控制机器进行采矿，实现矿下无人、少人安全作业。

科大讯飞则是在深度神经网络算法方面拥有丰富经验，尤其在语音识别和图文识别方面水平过硬，其讯飞火星的体验页面，就包含语音合成、听写、翻译、文字识别等功能。

本文地址：/news/846.html

评论列表（条）

发布评论取消回复