大模型越来越火,抢人大战愈演愈烈。
在AIGC、ChatGPT的带动下,大模型概念开始被广泛讨论。2023年还未过半,就已经有包括百度、阿里、腾讯、商汤、京东、科大讯飞等多家互联网、AI公司陆续宣布对大模型展开探索。
诚然,在大模型的技术和商业化进程上,国内相较于国外仍有一定差距。因此,大厂们毫不吝啬地开出百万年薪来争夺算法、深度学习等高级技术人才。
除此之外,大模型在中国这片土壤上要如何生长,其商业化进程又需要突破哪些瓶颈呢?
越来越“大”的大模型
AIGC和ChatGPT等热词带动下,大模型概念逐渐被关注。不过,大模型到底是什么,又能做什么,对很多人来说,这个问题的答案似乎很模糊。
一位中国传媒大学计算机技术硕士,在知乎上这样描述了大模型:如果说模型是一个盒子,那么普通模型就是一个小盒子,因为容量有限,所以其处理和存储的数据、信息也有限。因此,普通模型可以完成分类、预测、生成等简单任务;相较之下,大模型就是一个超级大仓库,往往需要数十亿,甚至上百亿个参数组成,可以完成更高级的思考和决策。比如,自然语言理解、语音识别、图像识别等。
而这个大模型,到底有多“大”?举例来说,GPT-4使用了1750亿规模的参数,微软推出的Turing-NLG有1000亿参数,谷歌则推出号称有1.6万亿模型参数的switch transformer。作为对照,我们日常使用的智能语音通常只有几个亿的参数。
虽然,在模型参数的规模上,国内产品似乎仍落后一步——例如,率先推出文心一言的百度有100亿参数、华为盘古大模型使用1000亿参数。不过,过去的几个月,陆续加速布局大模型的国内公司却如雨后春笋,其中包括阿里的通义大模型、腾讯的混元大模型、科大讯飞的讯飞星火、京东的ChatJD等等。
从目前国内推出的几款大模型产品来看,我们似乎仍在等待和寻找自己的“iPhone时刻”。无论是百度的文心一言、华为的盘古大模型,还是科大讯飞的讯飞星火,似乎仍停留在从自己原本的优势入手的“集大成者”,相对缺少更多的创新。
像是以搜索引擎为所长的百度,推出了类似GPT-3这样具备搜索属性的文心一言。
华为的盘古大模型则更加专注于自己比较有优势的TO B业务。在发布会上,华为也表示,在过去的2022年,华为盘古大模型主要是AI for Industry(AI赋能产业),为煤矿、水泥、电力、金融、农业等行业创造了更多产业价值,其中CV大模型早就有了许多用武之地。
比如在与能源公司合作的盘古矿山大模型案例中,矿井现场是一个40米长的采掘机,宽度仅2米左右,传统相机很难一下子捕捉到全部画面,只能用图中的九宫格视频画面。而通过5G AI全景视频拼接综采画面卷,传输到地面,地面工作人员将来可以实现地面控制机器进行采矿,实现矿下无人、少人安全作业。
科大讯飞则是在深度神经网络算法方面拥有丰富经验,尤其在语音识别和图文识别方面水平过硬,其讯飞火星的体验页面,就包含语音合成、听写、翻译、文字识别等功能。
评论列表 (条)