每周AI大事件 | 人脸识别管理新规发布、英伟达推AI超级芯片GH200、ChatGPT自定义指令开放 2023-08-11 09:56:22

欢迎来到的[每周AI大事件]，这里记录了过去一周值得关注的AI领域热点内容，帮助大家更好地了解人工智能领域的动态和发展风向。

Part1动态

[国内要闻]

1.百度网盘正式推出智能助理 “云一朵”

百度网盘推出了基于大模型的智能助理 “云一朵”，该助理可以帮助用户快速搜索文件和视频、总结知识、翻译文档等。它还能自动分析文档并返回中文结果，快速查找图片，并为视频添加字幕和提取标题。这款智能助理基于百度网盘的大模型产品文心一言，旨在重塑网盘市场的新格局。

2.百度推出通用图像关键信息抽取工具 PP-ChatOCR

百度飞桨团队推出基于文心大模型的通用图像关键信息抽取工具 PP-ChatOCR。该工具结合了 OCR 文字识别和大模型技术，能够在多种场景下提取图像中的关键信息。使用 PP-ChatOCR 可以快速搭建通用的图像关键信息抽取系统，降低开发成本。

3.张勇:通义听悟累计用户超55万

张勇表示，阿里云正在把促进大模型的生态繁荣作为首要目标，积极发展大模型的开源社区。目前，魔搭社区集聚了200多万AI开发者、1000多个优质AI模型，模型累计下载总量超过4500万。

4.昆仑万维子公司与 Meta 合作

昆仑万维旗下子公司天工科技与 Meta 签订了一项合作协议，合作开发适用于 Meta Quest2及其迭代设备上的 StarMaker VR 版本。一旦开发获得 Meta 的通过，StarMaker VR 版本将在 Oculus 官方商店上线，实现昆仑万维在元宇宙领域的商业化突破。

5.清华团队 AI 创企 “生数科技” 完成数千万元天使轮融资

北京生数科技有限公司完成了数千万元天使轮融资，资金将用于算法研发、产品开发和团队扩充。生数科技是生成式人工智能基础设施及应用提供商，已实现了百亿数据、数十亿参数规模的模型内测，并在多种模态任务中实现了国际领先的效果。

6.周鸿祎宣布360安全大模型将发布已在内部落地应用

360创始人周鸿祎宣布360安全大模型将发布，并已在内部应用中落地。360安全大模型围绕数字安全开展，已与360数字人结合应用于安全态势分析和安全趋势讲解等实际业务中。

7.OpenAI 在中国申请注册 GPT-5商标

欧爱运营有限责任公司（OPENAI OPCO， LLC）近日在中国申请注册2枚 “GPT-5” 商标，国际分类包括科学仪器、网站服务。

8.快手公布全模态、大模型 AIGC 解决方案

快手公布了他们在大型模型方面的最新进展。他们展示了一种全模态、大模型的 AIGC 解决方案，该解决方案基于他们自主研发的基座大模型，提供了文本生成、图像生成、3D 生成、音乐生成以及视频生成等技术能力。此外，他们还公布了数字人产品 “快手智播”。

9.阅文集团:推出大语言模型应用产品 “作家助手妙笔版”

阅文集团在上半年实现了32.8亿元的收入，虽然同比下降了19.7%，但归母净利润却增长了64.8%。阅文集团表示，在2023年，他们看到了 AI 技术取得关键性突破的机遇，并推出了大型语言模型应用产品 “作家助手妙笔版”，为作家提供创作辅助和数据运营等服务。

10.B 站申请 “bilibiliAI” 商标

B 站关联公司上海幻电信息科技有限公司申请注册 “bilibiliAI” 商标，该公司成立于2013年5月，经营范围包括企业形象策划、动漫游戏开发、专业设计服务、信息咨询服务等。

11.小米应用商店:AI 绘画等深度合成服务需提供资质

小米应用商店发布了关于深度合成服务资质的要求，要求提供 AI 绘画等深度合成服务的开发者提供相应的资质，包括互联网信息服务算法备案、安全评估报告、全国互联网安全管理服务平台审批通过的截图、软件著作权证书或 APP 电子版权证书、ICP 证或 ICP 备案等。这一要求将于2023年8月15日正式生效实施。

12.薇娅公司发布 AI 数字人直播业务直播成本降至数千元

薇娅公司旗下子公司谦语智能和羚客发布了 AI 数字人直播业务和一站式 AI 智能直播综合平台。谦语智能 CEO 陶亚表示，传统的品牌直播间每月需要投入15-25万元，而借助 AI 数字人直播，品牌方只需投入数千元，而且数据效果甚至优于真人直播。

13.美图旗下美颜相机推出 “AI 人像精修” 专区涵盖6大 AI 人像功能

美图旗下美颜相机推出 “AI 人像精修” 专区，该专区涵盖了6大 AI 人像功能，包括 AI 去双下巴、AI 表情、AI 换背景、AI 一键美颜、AI 头发、AI 路人消除。这些功能针对用户在日常生活中的痛点，旨在提供更好的人像拍照体验。

14.字节跳动旗下飞书 AI 助手 “MY AI” 或将于今年9月发布

核心要点总结:字节跳动旗下的飞书计划于今年9月正式发布 AI 助手 “MY AI”。该智能 AI 助手将包括自动汇总会议纪要、创建报告、优化和续写文字内容等功能。在飞书 app 中，MY AI 还可以通过对话形式，帮助用户自动创建日程、搜索公司内部知识库等。该产品功能目前还在推进中，具体的公测及上线时间尚未确定。

15.中国电信:在通用大模型方面今年还会有新的成果

中国电信在2023半年度业绩会上公布了上半年的财务数据，营收和净利润同比增长。董事长兼首席执行官柯瑞文表示，中国电信将在通用大模型领域继续取得新成果。他强调了通用大模型的重要性，指出最近发布的 TeleChat 是真正意义上的大模型。

16.王小川旗下百川智能 Baichuan-53B 大模型开启内测

百川智能发布了新一代大模型 Baichuan-53B，这是继 baichuan-7B 和 baichuan-13B 之后的第三款大模型产品。Baichuan-53B 在知识问答、文学创作等方面表现优异，展现出强大的商业文案创作、文学创作和中文理解能力。https://chat.baichuan-ai.com/home。

17.人脸识别技术应用安全管理规定公布

根据《人脸识别技术应用安全管理规定》，使用人脸识别技术需遵守法律法规，只有在具有特定目的和充分必要性，并采取严格保护措施的情况下方可使用。同时，在公共场所使用人脸识别技术，或者存储超过1万人的人脸信息，需在30个工作日内备案。规定还要求对人脸信息进行个人信息保护影响评估，并限制保存人脸原始图像。此举旨在规范人脸识别技术应用，保护个人信息权益及公共安全。

18.网易申请 “网易玉言” 大模型商标

网易申请注册商标 “网易玉言”，该商标与网易伏羲实验室推出的中文预训练大模型相关。该大模型拥有110亿参数，由深层 Encoder 和浅层 Decoder 组成。目前，“玉言” 大模型已在网易集团内的文字游戏、智能 NPC、文本辅助创作等业务场景取得了显著的业务效果。

19.成都上半年人工智能产业规模达424亿元同比增长36.9%

成都市政府官网发布消息，成都布局人工智能产业由来已久，2022年全市人工智能产业规模为616亿元，位列全国第7，产业增速位居全国第1，综合实力排名全国第6。今年上半年产业规模达424亿元，同比增长36.9%。

20.智源开源中英文语义向量模型 BGE 支持免费商用

智源发布了最强开源可商用的中英文语义向量模型 BGE（BAAI General Embedding），其在中英文语义检索精度和整体语义表征能力上均超过了社区中的其他同类模型。BGE 保持了同等参数量级模型中的最小向量维度，使用成本更低。C-MTEB 评测结果显示，BGE 中文模型在检索能力上领先于 OpenAI 的 Text Embedding002。

21.元象开源多语言大模型 XVERSE-13B 可免费商用

元象 XVERSE 公司开源了 XVERSE-13B，这是一个支持多语言的大语言模型，拥有百亿参数。XVERSE-13B 可以用于文本生成、自动化写作、数据分析和知识问答等方面。该模型采用了标准 Transformer 网络结构，支持8K 的上下文长度，是同尺寸模型中最长的，适用于多轮对话、知识问答和摘要等多种需求。

22.美团正式入股王慧文 AI 公司光年之外

根据天眼查 App 的信息显示，美团旗下的天津三快科技有限公司已全资入股王慧文创办的 AI 公司光年之外。光年之外成立于2018年，主要经营技术服务和产品销售等领域。

[国际要闻]

1.微软推出大型语言模型分割推理助手 LISA

微软研究院、香港大学和 SmartMore 的研究人员合作推出了一种名为 LISA（Large Language Instructed Segmentation Assistant）的大型语言模型分割推理助手。LISA 能够通过复杂的查询文本生成分割掩码，具备复杂推理、世界知识、解释性回答和多对话的能力。

2.苹果正在开发自己的文本生成器暂定名为 Apple GPT

根据报道，苹果正在开发自己的文本生成器 Apple GPT，表明了对人工智能技术的兴趣。苹果正在与 OpenAI、亚马逊和英伟达进行语言模型的测试，选择富士康作为专用服务器的供应商。

3.英伟达为 GH200超级芯片带来 HBM3e 解决生成式人工智能瓶颈

英伟达宣布对 GH200超级芯片进行了提升，加入了更强大的内存功能。新版本的 GH200预计将于2024年第二季度开始生产，并配备更快速的 HBM3e 处理器，可以满足不断增长的 AI 模型对内存的需求。GH200还可以通过 NVIDIA NVLink 与其他 Superchip 连接，部署用于生成式人工智能的巨型模型。

4.英伟达 L40S GPU 将于今秋上市:AI 推理性能比 A100高1.2倍

英伟达最近发布了全新的 NVIDIA L40S GPU 和搭载该加速卡的 NVIDIA OVX 服务器系统。L40S GPU 是 L40的升级版，具备48GB GDDR6ECC 显存，基于 Ada Lovelace 架构，包含第四代 Tensor Core 和 FP8转换引擎，性能是上一代 GPU 的5倍。

5.OpenAI 宣布 ChatGPT 所有用户已可使用自定义指令功能

OpenAI 宣布，现在所有 ChatGPT 用户可以在欧盟和英国以外地区通过免费计划使用自定义指令（Custom instructions）功能。这项功能允许用户在每次对话中提供自定义请求或上下文，避免了重复进行调教的麻烦。

6.英伟达 AI Workbench 让任何人都可以训练生成式 AI 模型

英伟达推出了 AI Workbench，旨在使生成式人工智能的创建更加简单和可管理。该工具允许开发者在英伟达的 AI 平台上开发和部署各种模型，包括个人电脑和工作站。AI Workbench 提供了数十万个预训练模型供开发者使用，并简化了定制这些模型的过程。

7.谷歌搜索推出 AI 语法检查器可更正错误句子

谷歌在其搜索平台上引入了一个语法检查器，通过 AI 技术分析短语和句子的构造，提供有用的建议。用户可以通过输入短语 “语法检查”、“检查语法” 或 “语法检查器” 来激活该功能。当检测到错误时，该语法检查器会对句子进行更正，并突出显示所做的修改。目前该工具在英文中可用，但不会检查违反搜索政策的内容。

8.亚马逊平台涌现大量 AI 生成的虚假旅行指南

亚马逊平台上出现了大量由人工智能生成的虚假旅行指南，声称是由著名作家撰写。这些指南通常包含通用的旅行信息，价格低廉，并且带有虚假的五星级评论。

9.微软宣布人工智能 Bing Chat 即将登陆第三方浏览器

微软宣布其人工智能聊天机器人 Bing Chat 将很快在第三方浏览器上推出，包括 Web 和移动设备。这将使 Bing Chat 能够在除了微软平台之外的其他平台上进行竞争。虽然 Bing Chat 将在所有第三方浏览器上提供支持，但在微软自家的 Edge 浏览器中将获得最佳体验。

10.网站可以阻止 OpenAI 网络爬虫避免数据用于训练 GPT 模型

OpenAI 现在允许网站屏蔽其网络爬虫，以帮助网站运营商防止其内容被用于训练 GPT 模型。网站可以通过在其 Robots.txt 文件中明确禁止 GPTBot 爬虫程序的出现，或者阻止其 IP 地址来实现屏蔽。

11.Zoom:其生成式 AI 工具不会擅自收集数据训练

Zoom 更新了其服务条款，明确表示不会在未经用户同意的情况下使用用户的音频、视频或聊天内容来训练其人工智能模型。虽然之前的政策中存在一些模糊性，但这次的更新为用户提供了更加明确的保证。Zoom 在之前因关于以用户数据训练人工智能的政策引发争议，而在本次更新后做出了澄清和承诺。

12.OpenAI 起诉 openai 域名所有者商标侵权

OpenAI Inc. 对一家拥有域名 www.open.ai 名为 “开放人工智能” 的公司提起了诉讼，指控其侵犯了 OpenAI 的商标并导致消费者混淆。OpenAI 称开放人工智能公司及其总裁误导消费者，让他们误认为两家公司有关联。

13.微软 Edge新功能:Bing AI 帮你以不同风格重写文本

微软更新了桌面版 Microsoft Edge 浏览器，新增了使用 Bing AI 重写文本的功能。用户可以选择不同的语气、格式和长度来重写文本，并通过 Bing AI 生成结果。这个功能在移动设备上的 SwiftKey 键盘应用中已经引入。这个功能可以帮助用户修改和改写文本内容，提供了一种方便快捷的方式。

14.微软 Windows 停止支持 Cortana 并专注于生成式 AI

微软宣布8月将停止支持 Windows 上的 Cortana，并将其重心转向生成式 AI。Cortana 将不再作为独立应用程序存在，但在 Outlook Mobile、Teams Mobile 和 Microsoft Teams 等应用中仍将提供支持。微软计划在 Windows11中引入新的 AI 功能，如语音访问和 AI 驱动的 Bing。该决定反映了微软对生成式 AI 的重视，他们希望通过创新和利用 AI 技术来改善服务并保持竞争优势。

15.鸿海向苹果独家供应 AI 服务器

苹果正大力投资和研发人工智能应用，引发了对 AI 服务器和数据中心需求的增加。鸿海集团成为苹果的独家授权生产 AI 服务器的供应商，并通过越南工厂出口，成为首家受益于苹果 AI 商机的厂商。鸿海在全球服务器市场占据领先地位，与苹果有多年的合作关系，成为苹果的首选合作伙伴。

16.Brave 发布注重隐私保护图像和视频搜索功能

Brave 网络浏览器的开发商 Brave Software 为了减少对「大型科技」竞争对手的依赖，该公司调整了其搜索引擎，使其能够使用自己的图像和视频索引。该公司表示，Brave Search 的图像和视频结果将从其自己的索引中获取。近年来，谷歌搜索因人工智能内容生成导致搜索结果变得更糟。

17.OpenAI 将 GPT-4设置 ChatGPT Plus付费用户的默认模型

OpenAI 最近为 ChatGPT 引入了几个新功能，包括示例提示、建议回复和后续问题。另外，OpenAI 将 GPT-4设置为 ChatGPT Plus 付费用户的默认模型，以提供更顺畅、便利的体验。用户不再需要手动切换到最新或最先进的公开可用模型。

Part2产品

1.AI 编程工具 Replit Ghostwriter 开发者工具箱中的完美助手

Ghostwriter 是一款 AI 辅助工具，旨在帮助开发者更快速、高效地编写代码。它能够自动化重复性的编码任务，让开发者专注于实现创意。Ghostwriter 支持16种语言，在 JavaScript 和 Python 上表现最好，可以自动补全代码、解释不懂的代码、重构代码等。Ghostwriter 在10天内训练出了一个大型编码模型，可以识别20种语言。

2.有趣!这个 AI 模型可根据 iPhone 照片生成诗歌

Pamera 是一款结合物体识别技术和 GPT-4模型的应用程序，可以根据 iPhone 用户的照片快速生成诗歌。这款应用程序以阿根廷作家博尔赫斯的风格生成诗歌，融合了超现实主义和神秘主义元素。

3.谷歌推出新工具 Poem Postcards 可让人工智能生成诗歌明信片

谷歌推出了一种新工具 Poem Postcards，允许用户根据艺术作品和主题选择创建由人工智能生成的诗歌明信片。用户可以从各种类型的诗歌中选择生成的诗歌，AI 会根据用户输入的主题和封面画作生成诗歌内容。

4.AI 创意生成器 MemeCam:自动为图片加上含梗量爆棚的文字

核心要点总结:MemeCam 是一款基于人工智能技术的创意生成器，旨在帮助用户快速生成有趣的网络梗图。用户可以通过上传图片或使用相机拍摄，MemeCam 利用 AI 算法进行图像识别和语义理解，自动生成搞笑的文字和贴纸。用户还可以对生成的文字和贴纸进行个性化编辑，包括字体、颜色和大小等。生成的 meme 图片可以随时预览和保存，方便分享到社交媒体平台或发送给朋友。

5.Stability AI 推代码生成开源语言模型 StableCode

Stability AI 发布了开源语言模型 StableCode，用于代码生成，支持多种编程语言。StableCode 有4K 和16K 版本，16K 版本的大上下文窗口对新手程序员特别有用。该模型通过指令模型和具体应用示例进行改进，用于解决复杂的编程任务。StableCode 提供了4K 和16K 两个版本，更大的上下文窗口允许模型一次查看更多代码来解决任务，从而可能生成更好的代码。

6.比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?

该文介绍了网易伏羲基于原生中文语料数据及自有高质量图片数据构建的文生图模型 “丹青”，并且解释了丹青模型相较于其他文生图模型的差异化优势在于对中文的理解能力更强，能更准确地理解和生成中华传统美食、成语、俗语、诗句。丹青模型的构建主要包括建设高质量的中文数据集、构建中文领域的优质理解模型、重构图文生成算法以及引入专家和人类的反馈。

7.清华系面壁智能给大模型接入16000 真实 API，开源 ToolLLM 效果直逼 ChatGPT

面壁智能联合来自清华大学、耶鲁大学、人大、腾讯和知乎的研究人员推出了 ToolLLM 工具学习框架，加入了 OpenBMB 大模型工具体系。该框架解决了大型语言模型在使用外部工具（API）时的限制问题。作者构建了 ToolBench 数据集，其中包含16464个真实世界 API，该数据集可用于训练模型。通过 ToolLLM 框架，可以提高开源语言模型在各种工具使用场景下的推理能力。作者还开发了 ToolEval 自动评估工具，评估了 ToolLLaMA 模型的工具使用能力。实验结果显示，ToolLLaMA 在 pass rate 和 win rate 方面表现优于传统方法，且在与 ChatGPT 相比中具有接近的性能。

8.RODES:超强 ChatGPT 提示词框架轻松搞定高质量 AI 提示词

本文介绍了一个名为 RODES 的提示词框架，旨在帮助人们编写高质量的 AI 提示词。RODES 框架基于帕累托原则，着重于关键要素，包括角色、目标、详细信息、示例和感知检查。

9.Lalamu Studio:用 AI 轻松创作对口型视频

Lalamu Studio 是一款基于人工智能技术的创新软件，通过使用 AI 轻松地创作口型同步视频。用户可以上传视频文件或使用内置模板开始创作，并利用先进的人工智能算法自动调整嘴部动作以确保与音频完美匹配。软件还支持用户上传自己的音频文件进行匹配，并提供了文本转语音的功能，实现文本与口型的同步。

10.视频也可以删背景了!这款 AI 工具 Unscreen 可一键去除背景

Unscreen 是一款 AI 自动删除视频背景工具，可以帮你将视频和 GIF 中的背景去除。该工具支持多种格式，无需手动操作即可自动分析和去除背景。不过，免费额度有限，注册用户可以无限剪辑视频但无法导出，订阅价格为4.99美元 / 分钟。

11.代码智能转换工具 AI Code Convert 还可将自然语言转换成代码

AI Code Convert 是一个 AI 代码翻译工具，可以将代码或自然语言转换为编程语言。它利用人工智能技术，提供代码转换和自然语言转换的功能。用户可以将代码从一种编程语言转换成另一种，如从 Python 到 JavaScript，从 C 到 Java。此外，AI Code Convert 还可以将自然语言描述的需求转换成代码，提高开发效率。

12.神采 PromeAI:可一键生成模特和炫酷文字效果

神采 PromeAI 是一款功能强大的 AI 驱动设计助手，拥有丰富的可控制 AIGC 模型风格库，能够轻松创建令人惊叹的 AI 艺术、图像、图形、视频和动画。该工具适用于业余爱好者、建筑师、室内设计师、产品设计师以及游戏 / 动画设计师等。其核心功能包括草图渲染、照片转线稿、涂抹替换、变化重绘、AI 超模、背景生成、尺寸外扩、文字效果和聊天机器人等。

Part3观点

1.IBM 研究:AI 聊天机器人很容易被欺骗生成恶意代码

IBM 的研究表明，通过欺骗大型语言模型如 GPT-4，可以轻松生成恶意代码或提供虚假安全建议。研究人员发现，只需要英语基础知识和对模型训练数据的一些背景知识就能轻松欺骗 AI 聊天机器人。研究人员创建了一种游戏模式，让用户无法退出，从而让机器人继续提供虚假信息或生成恶意代码。

2.Gartner 调查显示，生成式 AI 已成为企业面临的新兴风险

根据 Gartner 的调查，生成式 AI 的大规模可用性已成为企业风险管理人员最关注的问题之一。生成式 AI 带来的潜在风险包括知识产权、数据隐私和网络安全问题。

3.周鸿祎:发力垂直大模型走进千家万户才能产生真正的价值

周鸿祎表示，他认为通用大模型在应用层面还有局限性，我们应该发力让垂直大模型走进千家万户，这才能产生真正的价值。他还提出了 “安全即服务” 的概念，并发布了 “360安全云”。

4.经济学家预测未来几年将有2000亿美元投资于人工智能

高盛经济学家预测到2025年，全球对人工智能技术的投资可能达到约2000亿美元，其中美国的投资可能达到1000亿美元。预计人工智能将为工人带来大幅提升的生产力，每年生产力可能提高1.5个百分点。

5.亚马逊云服务 CEO :没有云服务就没有人工智能

亚马逊云服务（AWS）首席执行官亚当・塞利普斯基表示，人工智能 (AI) 与云计算密不可分，没有云就没有 AI。目前只有10% 的潜在客户已经转向了云计算，云计算市场还有巨大的增长空间。

6.王小川谈王慧文做大模型:没有技术背景做大模型压力会大很多

王小川表示，做大模型比做搜索引擎时成就感更大，他认为自己更适合做大模型。他指出，做大模型需要大量的技术决策，没有技术背景会面临更大的压力。然而，如果具备足够的技术能力，做大模型反而是一件愉悦的事情。

7.专家称:OpenAI 等 AI 公司尚未准备好进行首次公开募股

虽然 AI 公司在 IPO 市场兴起，但专家表示，人工智能公司需要建立更多收入、证明盈利能力，并超越风险投资所带来的价值。对于初创公司来说，首次公开募股可能为时过早，更有可能被大公司收购。科技公司一般需要有大约1亿美元的收入，并且至少已经运营10年才能准备上市。

8.全球75% 的组织计划在工作设备上禁止 ChatGPT 和生成式 AI 应用

根据 BlackBerry 发布的新调查，全球75% 的组织正在实施或考虑禁止 ChatGPT 和其他生成式 AI 应用在工作设备上的使用。禁令主要是出于对数据安全、隐私和企业声誉的风险的考虑。

9.ChatGPT 回答编程问题的准确率比抛硬币还要差

根据普渡大学的研究，OpenAI 的聊天机器人 ChatGPT 在软件编程问题上的准确率不到五成。研究分析了 ChatGPT 对517个 Stack Overflow 的问题的回答，发现52% 的答案是错误的，77% 的答案是冗长的。尽管答案经常错误，但由于 ChatGPT 的全面性和清晰的语言风格，仍然具有欺骗性。

10.亚马逊云科技生成式 AI 全球副总裁:人工智能炒作周期还未达顶峰

亚马逊云科技生成式 AI 全球副总裁 Vasi Philomin 表示，虽然人工智能存在炒作周期，但互联网已经对每个人的生活产生了巨大影响。他认为生成式人工智能将改变各行业的每个企业，但需要时间。根据最新数据，全球基础设施服务市场在2022年增长了29.7%，亚马逊以481亿美元的收入和40% 的市场份额继续领导全球市场。

11.研究发现:大语言模型通过阅读文档学会使用工具

根据一项新的研究论文，语言模型可以通过阅读工具和 API 文档来学习使用工具，并在某些情况下甚至发明新的方法。与传统的通过演示训练的方法相比，仅使用文档的模型在零样本性能上表现相当或更好。研究团队使用文档和演示对多个模型进行了训练，并发现仅使用文档的模型在零样本性能上与仅使用演示的模型相当甚至更好。

12.研究发现:四分之一听众无法分辨出 AI 深度伪造语音

根据伦敦大学学院的研究发现，人类只能在73% 的时间内检测到深度伪造语音，无论是英语还是普通话的听众识别准确率都是一样的。研究人员生成了50个英语和普通话的深度伪造语音样本，并向529名参与者播放，发现约四分之一的听众无法分辨出深度伪造的语音。

Part4深度

1.AI 缺芯，英伟达卖断货

英伟达是 AI 芯片市场的中心，但目前面临着43万张芯片缺口的问题。其最新推出的 GH200超级 AI 芯片，配备了世界上第一款 HBM3e 内存，提高了 AI 模型的运行速度。然而，由于合作伙伴 SK 海力士的产能问题，GH200的供应仍然存在不确定性。

2.拒绝007，AI 进军直播界?美国游戏圈 UP 主正在利用 AI 取代自己

YouTube 游戏创作者 Kwebbelkop 遇到了关键人物问题，他无法度假或拥有属于自己的时间，一旦他不出现在镜头前，他的视频事业就会停滞不前。为了解决这个问题，Kwebbelkop 开始研究利用人工智能来取代自己的创作过程。他开发了一系列人工智能工具，包括能够根据 up 主的相似度进行训练并创建新内容的 AI 工具，以及通过简单指令来简化创作行为的工具。

3.《西部世界》真来了!斯坦福爆火「小镇」开源，25个 AI 智能体恋爱交友

斯坦福25个 AI 智能体「小镇」终于开源了，GitHub 狂揽1.4k 星，《西部世界》即将走进现实。这个虚拟城镇中的25个 AI 智能体不仅能在这里上班、闲聊、社交、交友，甚至还能谈恋爱，每个 Agent 都有自己的个性和背景故事。该项目的开源将为游戏领域带来无限可能性，同时也引发了人们对于 AI 智能体的未来发展的讨论。

4.被骗了?GPT-4其实没有推理能力?!

有论文指出，尽管 GPT-4有显著改进，但其推理能力仍然存疑。论文讨论了推理的本质，并通过对 GPT-4的21个推理问题进行测试，得出结论 GPT-4在推理方面仍然存在内在的不一致性和缺乏理解基础性概念的问题。这一看法得到一些 AI 学者的认同，认为距离通用人工智能还有很长的距离。然而，也有人对这一观点提出质疑，认为作者在选择模型和 Prompt 时存在问题。

5.AIGC 进入 iPhone 时刻!Hugging Face 接入最强超算，神秘显卡胜过 A100

英伟达在 SIGGRAPH 会议上推出了一系列重磅更新，包括下一代 GH200超级芯片平台、RTX 工作站、OVX 服务器等。GH200平台具有连接多个 GPU 的能力，能处理复杂的生成式工作负载。RTX 工作站推出了四款新品，包括性能最强的 RTX6000。OVX 服务器搭载 L40S GPU，性能超过 A100。此外，英伟达还发布了 AI Workbench 和 ChatUSD 等工具，提供定制生成式 AI 应用的支持。同时，Hugging Face 接入英伟达超算，加速 AI 模型的训练和微调。

6.美团全资收购光年之外，王兴亲自下场抓大模型

美团以20.65亿元全资收购了大模型创业公司光年之外，并将光年之外的全资股东变更为美团旗下天津三快科技有限公司。此举可以让美团更快切入大模型领域，降低自身在 AI 方面的研发成本和投资风险。光年之外作为一家备受看好的大模型公司，此前已完成了一轮融资，投前估值达到10亿美元。美团入股光年之外，将为其在大模型领域的发展提供更多的人才和资金支持。同时，美团也投资了其他大模型公司，表明其对于 AI 领域的兴趣和投资意向。

7.沸腾251天，访谈近百位从业者，关于大模型世界的5个现状

大模型在商业世界的发展现状涵盖了巨头的战略布局、中间层的繁荣和开源项目的崛起。谷歌、苹果、微软和亚马逊等巨头都在利用大模型来巩固自己在行业中的地位，各自追求不同的目标。中间层的公司如 Databricks 和 Scale AI 则发挥着关键的作用，将大模型应用到实际的商业场景中。

8.华为天才少年大模型创业，原职级 P20，现主攻 AI 公文写作

华为天才少年李博杰离职创业，专注于大模型领域。李博杰曾是华为2012实验室成员，职级为 P20。他的精力将聚焦于 AIGC 应用落地，主攻 AI 公文写作和心理咨询。李博杰在华为的职业生涯发展迅速，曾担任助理首席专家。他表示离开华为是为了在大模型创业领域做出贡献，认为在大公司中做螺丝钉无法有太大激励，而自己是一只无法被关住的鸟儿。他希望知行合一，奔向大模型领域的创业道路。

9.AIGC 撒下的种子，开出了不同香气的花

AIGC（AI 生成内容）技术在各个领域的应用正在迅速发展。在内容创作方面，AIGC 可以帮助创作者捕捉灵感，提高创作效率，并解决创作者在素材积累方面的难题。然而，AIGC 也引发了一些争议，担心过于依赖 AI 技术会降低创作者的独立思考和原创价值。在企业管理方面，AIGC 可以提高流程设计效率、优化办公协同过程，并降低人为错误。在品牌营销方面，AIGC 可以提升个性化广告投放和虚拟试妆体验。

10.百模大战愈演愈烈，智能手机厂商静悄悄

大模型技术成为近一年来最热门的技术之一，引发了互联网和科技公司的竞争。然而，智能手机厂商在大模型领域相对较为安静。华为和小米等互联网手机公司积极拥抱大模型，但以智能手机业务为主要收入来源的厂商对大模型的兴趣较低。智能手机厂商面临算力和数据方面的短板，缺乏足够的资源来打造具有竞争力的大模型产品。然而，上游产业链的企业如高通和谷歌已经开始推出支持大模型的技术，未来智能手机厂商可能会获得现成的大模型产品。但大模型的入口属性可能会颠覆智能手机厂商的入口优势，对智能手机生态产生负面影响。

11.把大模型装进手机，分几步?

大模型 “跑” 进手机，AI 的战火已经从 “云端” 烧至 “移动终端”。大模型在手机上的应用已经不再新鲜，但下一步的目标是让大模型直接在手机上运行。大模型的应用将给手机用户带来体验上的提升，例如在智能助手、语音识别和信息处理方面的应用。手机厂商和科技巨头正在加速推进在移动终端的轻量化部署 AI 大模型。为了在手机上运行大模型，需要升级手机系统和硬件，如增加内存和存储空间、改进任务调度和并发模型等。

12.妙鸭爆火二十天:AIGC 应用如何加筑壁垒?

中国的 AIGC 应用市场正在迅速发展，妙鸭相机是中国首款现象级 AIGC 应用之一。该应用在短短两周内在社交媒体上疯狂传播，用户数量和评价都非常正面。然而，AIGC 应用的火爆程度通常持续时间很短。为了避免一地 “鸭毛”，妙鸭相机团队开始思考如何构建新的护城河。他们明确定位自己为 “摄影美学服务” 产品，专注于满足下沉城市和欠发达地区用户对美的需求。

13.什么造成了 GPT-4的输出很随机?

GPT-4是 OpenAI 的一款大型语言模型，虽然在自然语言理解与生成、逻辑推理、代码生成等方面表现出色，但其输出结果却具有较大的不确定性。一位开发者通过分析发现，这种随机性可能是由 GPT-4中的稀疏 MoE（混合专家模型）引起的。稀疏 MoE 的特性导致模型在批次级别具有确定性，但在序列级别却失去了确定性，从而使得生成结果变得不确定。

14.60小时完成、收益超1万，用 AI 做的游戏凭啥赚到钱?

该文章介绍了一位抖音博主使用 AI 辅助开发的塔防小游戏《细胞防线》的制作过程和商业化成果。博主利用 AI 工具生成游戏代码和美术画面，总计耗时60个小时完成游戏制作。《细胞防线》上线 TapTap 游戏社区后，获得了超过1万的下载量和4万多名用户关注。通过广告位的加入，博主每天能够获得约100元的广告收入，累计收益达到一万元左右。文章还介绍了其他游戏公司利用 AI 技术开发游戏的尝试，展示了 AI 在游戏创作中的潜力和可能性。

15.百模大战即将迎来一轮应用淘汰赛

文章讨论了大模型领域的发展阶段和应用趋势。随着越来越多的大模型落地，大模型行业可能进入应用驱动阶段，百模大战即将迎来一轮淘汰赛。大模型的发展经历了技术驱动阶段和产品驱动阶段，现在正进入用户驱动阶段。大公司和创业公司在应用层面的差别可能不大，而应用场景和用户认可将决定大模型的商业化前景。此外，大模型的改变将涉及内容创造方式的变革和交互设计的商业化机会。长期来看，大模型的商业化机会可能在 C 端用户驱动阶段。

16.Llama2等30 模型接入千帆大模型平台，推理成本降50%

百度智能云千帆大模型平台升级，接入了30 个大模型，包括 Llama2系列、ChatGLM2-6B、RWKV-4-World、MPT-7B-Instruct、Falcon-7B 等。通过优化模型吞吐和降低模型尺寸，推理成本最多可降低50%。千帆平台提供完整的开发和应用工具链，降低了使用大模型的门槛。此次更新还新增了 Prompt 模板库，用户可以通过模板引导大模型输出更好的内容。千帆大模型平台的目标是降低大模型的使用门槛，让更多专业人士将精力聚焦到对场景的理解和应用之上。

本文地址：/news/3270.html

评论列表（条）

发布评论取消回复