大模型“涌现”的思维链，究竟是一种什么能力？ 2023-05-12 20:36:05

听说最近AI大厂的开发人员和高校的NLP研究人员，都在琢磨，怎么让大模型“涌现”。那画面莫名就让我想到了程序员给服务器上香来保佑不宕机，都有种求诸于天的玄学。

所谓“涌现”，在大模型领域指的是当模型突破某个规模时，性能显著提升，表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等。一般来说，模型在100亿到1000亿参数区间，可能产生能力涌现。

但老话说得好“氪不救非，玄不改命”。靠砸钱和运气，只一味把模型做的大大大，也未必能让AI“显灵”。

强大的逻辑推理是大语言模型“智能涌现”出的核心能力之一，好像AI有了人的意识一样。而推理能力的关键，在于一个技术——思维链（Chain of Thought，CoT）。

大家如果看过类GPT应用的翻车问题，会发现大多都是数学算术题、逻辑思考题等，这类需要精确推理的问题，而这正是思维链能够重点解决的。现在训练大语言模型的企业和机构很多，但能够训练出思维链并应用的很少。

换句话说，只有解锁了思维链技术，大语言模型才有可能“涌现”，才能在“大炼模型”的竞争中具备能力优势。

思维链的故事，我们从一个奇男子说起。

本文地址：/news/787.html

中科大和 IDEA 研究院封神榜团队合作开发了一款名为 ChiMed-GPT 的中文医疗领域大语言模...

1:引言自从搜索引擎问世以来，信息检索算法历...

如今很多大模型都声称擅长数学，谁有真才实学?谁是靠背测试题“作弊”的?...

...

所谓的“套壳”，并不意味着国产大模型黑暗的前景。...

百川智能与鹏城实验室宣布合作研发基于国产算力的最长窗口大模型。该合作突破了国产算力大模型的技术限制，...

要点: MLPerf公布最新GPT大模型推理测...

要点: 1、大模型幻觉主要分为与输入、上下文及...

腾讯混元大模型终于亮相。用腾讯自己的话说，之...

近日，百度公布了“2023百度十大科技前沿发明”，十大前沿发明中，超过70%涉及大模型和重构创新。...

时间拉回到2015年，梁斌刚刚获得清华大学人工智能博士学位，同年10月八友科技成立，并常年为客户提供...

在今日的2023年百度联盟大会上，百度正式推出面向各类开发者的文心大模型插件开发平台“灵境矩阵”（h...