AI编程工具Augment Code宣布支持GPT-5 引入模型选择器功能
2025年8月8日 15:00
AI编程工具Augment Code宣布支持GPT-5 引入模型选择器功能AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202539Augment公司宣布推出其最新的人工智能模型GPT-5,并首次引入了模型选择器功能,允许用户在Claude Sonnet4和GPT-5之间进行选择。这一创新举措标志着Augment在人工智能领域的重大进步,为用户提供了更多的灵活性和选择权。在过去几周的内部测试中,Augment对两款模型进行了严格的对比测试,涉及单文件编辑、多文件重构、测试生成和大型代码库的错误修复等编码任务。测试结果显示,尽管Claude Sonnet4在速度上略胜一筹,更倾向于快速直接的响应,而GPT-5则在处理复杂任务时表现出更多的谨慎和彻底性,包括更详细的推理和在模糊情况下提出澄清问题。在偏好率上,GPT-5以约47%略高于Claude Sonnet4的约44%,但在平局率上两者均为4%。GPT-5在跨文件推理和依赖关系解析方面表现更强,而Claude Sonnet4在处理小型或中型变更时速度更快。在代码质量评论方面,Claude Sonnet4的评论更简洁,专注于主要变更,而GPT-5的评论更全面,包括边缘情况的覆盖。Augment决定推出模型选择器的原因是为了给用户提供在彻底性和速度之间的选择权。一些用户可能更偏好精确性和边缘情况覆盖,而另一些用户可能更希望快速迭代。此外,如果某个模型提供商遇到延迟或质量波动,用户可以零成本切换模型,这为工作流程提供了额外的弹性。同时,用户的选择行为也为Augment提供了宝贵的反馈,有助于未来的模型优化和行为调整。尽管Claude Sonnet4仍然是Augment的默认模型,但GPT-5为用户提供了另一种选择,特别是在需要不同方法处理任务时。Augment将继续监控用户在两种模型之间的使用分布、GPT-5采用激增的任务类型以及随时间变化的延迟趋势和失败模式。用户反馈对于塑造下一轮调整至关重要。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20355谷歌新功能 相机教练 上线,AI 将助你拍出完美照片,但也可能影响摄影艺术!
2025年8月8日 12:00
谷歌新功能 相机教练 上线,AI 将助你拍出完美照片,但也可能影响摄影艺术!AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202520谷歌宣布计划在2025年推出的Pixel10系列手机中引入全新的"相机教练"功能。这项技术将让AI在用户按下快门前主动介入,提供实时的构图、角度和光线建议,旨在全面提升用户的拍照体验。与目前主流的AI修图技术不同,谷歌希望通过这种前置指导方式,让用户在拍摄瞬间就能获得专业级的摄影建议。目前手机摄影技术正在经历快速变革,各大品牌纷纷探索AI辅助拍照领域。华为、小米等国内手机厂商已经在各自产品中实现了不同程度的拍摄辅助功能。谷歌的"相机教练"功能更进一步,通过实时分析拍摄画面内容,主动为用户推荐最佳拍摄方案,这标志着手机摄影进入了一个全新的发展阶段。图片来源:谷歌然而,这项创新技术也带来了多重挑战。实时AI分析对设备性能提出了更高要求,用户在拍照过程中可能面临手机过热等性能问题。同时,隐私保护成为另一个关键考量,实时画面分析是否需要将数据上传至云端处理,这个问题可能会让注重隐私的用户感到担忧。更深层的争议在于"相机教练"对摄影创造性的潜在影响。尽管这项技术能够有效降低拍摄门槛,让摄影新手也能轻松拍出质量合格的照片,但过度的系统干预可能会束缚用户的创造力和个性化表达空间。长期来看,手机摄影可能会走向同质化,导致社交平台上充斥着大量风格相似的"模板化照片"。尽管"相机教练"功能面临诸多挑战,国产手机品牌并不一定需要完全复制这一发展路径,但AI摄影的整体趋势已经不可逆转。谷歌的这次尝试为整个行业指明了发展方向,未来的手机摄影很可能会在AI技术的深度参与下,开启一个全新的发展篇章。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20354谷歌Gemini助手被曝重大安全漏洞:日常邮件和日历邀请可被利用发起攻击
2025年8月8日 12:00
谷歌Gemini助手被曝重大安全漏洞:日常邮件和日历邀请可被利用发起攻击AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202514以色列研究人员近日发布的一项研究显示,谷歌的 Gemini 助手可能存在重大安全漏洞,攻击者无需高深技术,仅通过隐藏在日常内容中的简单指令,就能利用 Gemini 助手获取敏感数据,甚至远程控制物理设备。这项名为只需邀请(Just an Invite)的新研究表明,基于 Gemini 的助手易遭受所谓的定向提示软件攻击。与传统的黑客攻击不同,这类攻击不要求直接访问 AI 模型或具备技术专长,而是将恶意指令隐藏在看似无害的电子邮件、日历邀请或共享文档中。当用户在 Gmail、Google 日历或 Google 助理中寻求 Gemini 帮助时,这些隐藏的指令就会被激活并执行。该研究团队在演示中展示了这种攻击的严重性。攻击者可以利用修改后的 Gmail 信息或 Google 日历邀请,控制智能家居设备、录制 Zoom 通话,甚至追踪用户位置。通过一些看似无害的词语,如谢谢或太棒了,研究人员成功地远程关闭了电灯、打开了窗户,甚至启动了家用锅炉。多重攻击风险,安全漏洞亟待解决研究人员概述了五种潜在的攻击类型和14种现实场景,这些攻击可能同时危害数字和物理系统。其中包括:短期上下文中毒:攻击者在短期内通过恶意指令影响 Gemini 的响应。长期操纵存储数据:利用 Gemini 的数据存储功能,长期操控信息。利用内部工具:滥用 Gemini 内部工具实现恶意目的。升级至其他谷歌服务:通过 Gemini 渗透到 Google Home 等其他谷歌服务。启动第三方应用:在安卓设备上远程启动 Zoom 等第三方应用。谷歌推出修复措施以应对威胁研究人员使用 TARA 风险分析框架对这些威胁进行了评估,发现73%的威胁属于高危类别。这表明这类攻击不仅简单易行,而且后果严重,凸显了加强安全措施的紧迫性。自 GPT-3以来,安全专家就已意识到大型语言模型(LLM)的漏洞,例如简单的忽略先前指令提示就能绕过安全防护。该研究进一步证实,即使是当今最先进的 AI 模型,也仍然存在这些漏洞。谷歌在2025年2月获悉了这些漏洞后,已实施多项安全措施进行修复,包括强制用户确认敏感操作、加强可疑 URL 的检测和过滤,以及使用新的分类器来捕捉间接提示注入。谷歌表示,已在所有 Gemini 应用中启用这些防御措施,并完成了内部测试。这项研究由特拉维夫大学、以色列理工学院和安全公司 SafeBreach 的团队共同完成。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20353AI搜索新变局:Perplexity为特朗普Truth Social提供技术支持,搜索结果引争议
2025年8月8日 12:00
AI搜索新变局:Perplexity为特朗普Truth Social提供技术支持,搜索结果引争议AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202519AI初创公司Perplexity正在为美国总统特朗普的社交媒体平台Truth Social提供技术支持,推出全新的AI搜索引擎。这款名为"Truth Search AI"的搜索引擎已在Truth Social网页版上线,iOS和Android应用的公测版本预计将在"不久的将来"推出。特朗普媒体在新闻稿中表示,Perplexity的技术能够提供"直接、上下文准确的答案和透明引用",这将帮助Truth Social"指数级增加"用户可获取的信息量。不过,该社交媒体平台仍保留对AI搜索引擎信息来源的控制权。Truth Social使用的是Perplexity Sonar API,该接口承诺能够查询网络以获取最新和经过验证的信息,即使这些信息来自屏蔽Perplexity爬虫的网站,同时支持结构化输出,允许用户自定义搜索引擎响应的格式。Perplexity发言人杰西·德怀尔向TechCrunch透露,Sonar API的准确性取决于Truth Social限制的信息源范围。德怀尔表示:"我们对此没有可见性或控制权,就像你在自己公司内部使用API,或者作为学术研究人员想要用它搜索自己的数据一样。"TechCrunch已联系特朗普媒体了解更多信息,包括Truth Search AI是否能访问整个网络、是否会优先考虑某些信息源,以及AI是否会被指示对总统和现任政府给出有利回应,对民主党人给出不利评价。为了评估该搜索机器人会引用哪些信息源,Axios向其提出了一系列问题,如"2021年1月6日发生了什么?"和"唐纳德·特朗普为什么被弹劾?"在所有回应中,FoxNews.com要么是最常见的信息源,要么是唯一列出的信息源。其他信息源包括FoxBusiness.com、《华盛顿时报》或《大纪元时报》。相比之下,Perplexity的公共搜索引擎返回更广泛的信息源,包括维基百科、Reddit、YouTube、NPR和Politico等。特朗普媒体CEO、前加利福尼亚州国会议员德文·努内斯在声明中表示,Truth Social计划"根据用户反馈完善和扩展搜索功能,同时为平台实施广泛的额外增强功能"。Perplexity首席商务官德米特里·舍韦连科在声明中也指出,Perplexity的AI提供带有"透明引用的答案,让任何人都能深入挖掘"。7月下旬,特朗普在发布AI行动计划的同时,颁布了一项针对"有偏见AI"或非"意识形态中立"模型的行政命令。该命令特别将有关种族或性别、无意识偏见、系统性种族主义以及其他归入多元化、公平和包容性范畴的观念称为"普遍且具有破坏性"的意识形态,可能"扭曲输出的质量和准确性"。Truth Search AI的推出正值OpenAI、Anthropic和谷歌等顶级AI公司被列入获准向联邦民用机构销售服务的供应商名单。OpenAI周三与美国政府中央采购部门达成协议,以每年仅1美元的价格向各机构销售ChatGPT企业版。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20352多邻国营收超预期股价暴涨30%,AI战略引争议却创造十亿美元营收奇迹
2025年8月8日 12:00
多邻国营收超预期股价暴涨30%,AI战略引争议却创造十亿美元营收奇迹AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202548多邻国公司周三公布的季度财报显示,尽管此前因选择拥抱生成式AI而非人工员工遭遇广泛抨击,公司营收仍超出预期。这一消息推动多邻国股价飙升近30%。今年4月,CEO路易斯·冯·安透露多邻国将转型为"AI优先"公司,逐步淘汰合同工。他还建议各团队除非无法进一步自动化工作流程,否则不要增加员工招聘。借助生成式AI技术,多邻国新增148门语言课程,课程总量较此前翻了一倍多。冯·安当时表示:"如果没有AI,我们需要几十年时间才能将内容规模扩展到更多学习者。我们有责任尽快为学习者提供这些内容。"虽然部分多邻国用户认为AI功能让应用体验变差,但公司财务数据却讲述着截然不同的故事。多邻国预计今年营收将突破10亿美元大关,日活跃用户同比增长40%。这一增长表现虽然显著,但处于公司此前预估40%-45%增长区间的下限,有投资者在周三的季度财报电话会议上向冯·安提及这一点。冯·安解释道:"我们增长率偏向下限的原因是我谈到了AI相关内容,但没有提供充分的背景信息。因此我们在社交媒体上遭受了一些抨击。最重要的是,我们希望让社交媒体上的情绪变得积极。我们停止发布尖锐的帖子,开始发布能让情绪更加积极的内容,这个策略奏效了。"在TikTok平台上,多邻国视频下的热门评论仍多为对公司AI策略的批评。尖刻的评论者会询问出现多人的视频是否使用AI制作,多邻国通常回复:"不是的,这是我们优秀团队制作的!"即使公众对多邻国的态度发生转变,但公司的财务表现并未受到影响。从公司角度来看,这才是最重要的。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20351特斯拉解散Dojo超级计算机团队,放弃自研芯片转向英伟达合作
2025年8月8日 12:00
特斯拉解散Dojo超级计算机团队,放弃自研芯片转向英伟达合作AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202569特斯拉正式解散其Dojo超级计算机项目团队,结束了这家电动汽车制造商在自动驾驶技术领域自主研发芯片的努力。据彭博社报道,这一决定标志着特斯拉AI战略的重大转向。Dojo项目负责人Peter Bannon已经离开公司,剩余团队成员将被重新分配到特斯拉内部其他数据中心和计算项目中。这一变化是在约20名员工离职创立AI公司DensityAI之后发生的。新成立的DensityAI由前Dojo负责人Ganesh Venkataramanan以及前特斯拉员工Bill Chang和Ben Floering共同创立,该公司正在开发面向机器人、AI代理和汽车应用的数据中心芯片、硬件和软件解决方案。这一决定发生在特斯拉发展的关键时期。CEO埃隆·马斯克一直努力让股东将特斯拉视为一家AI和机器人公司,尽管去年6月在奥斯汀进行的robotaxi有限测试中出现了多起车辆驾驶行为异常的事件。特斯拉关闭Dojo项目代表了战略的重大转变。马斯克自2019年以来一直在讨论这个项目,称Dojo将成为特斯拉AI雄心和实现完全自动驾驶目标的基石,因为它能够"处理真正庞大的视频数据"。2023年,摩根士丹利曾预测Dojo可能通过开启robotaxi和软件服务等新收入来源,为特斯拉增加5000亿美元的市场价值。就在去年,马斯克还表示特斯拉AI团队将在robotaxi发布前"加倍投入"Dojo项目。然而,大约从2024年8月开始,马斯克不再提及Dojo,转而开始推广Cortex项目,这是"特斯拉在奥斯汀总部建设的巨型新AI训练超级集群,用于解决现实世界的AI问题"。Dojo项目结合了超级计算机和自主芯片制造两个方面。特斯拉在2021年首个AI日上正式宣布Dojo时发布了D1芯片,该芯片将与英伟达GPU配合使用为Dojo超级计算机提供动力。公司还在开发下一代D2芯片以解决前代产品的信息流瓶颈问题。据消息人士向彭博社透露,特斯拉现在计划增加对英伟达的依赖,同时与AMD等外部技术合作伙伴进行计算合作,并与三星合作进行芯片制造。特斯拉上月与三星签署了165亿美元的协议,生产其AI6推理芯片,这款芯片设计承诺能够从为FSD和特斯拉Optimus人形机器人提供动力扩展到数据中心的高性能AI训练。在特斯拉第二季度财报电话会议上,马斯克暗示了潜在的冗余问题:"考虑到Dojo3和AI6推理芯片,直觉上我们希望在那里找到趋同点,基本上使用同一款芯片。"这一消息正值特斯拉董事会向马斯克提供290亿美元薪酬方案的时期,目的是让他继续留在特斯拉并推进公司的AI努力,而不是过分分心于他的其他公司,包括更专注于AI的初创公司xAI。特斯拉解散Dojo团队的决定反映出公司在AI战略上的务实调整。从自主研发转向与成熟技术供应商合作,可能有助于特斯拉更快地实现其自动驾驶和AI目标,尽管这也意味着放弃了在芯片技术上的独立控制权。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20350Ideogram 推出角色功能:只需一次设定,即可在所有图像中保持角色风格统一
2025年8月8日 12:00
Ideogram 推出角色功能:只需一次设定,即可在所有图像中保持角色风格统一AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202533Ideogram 近期在其 API 中引入了一项名为角色(Character)的全新功能,旨在帮助开发者在无需额外训练的情况下,创建并维护外观一致的角色。这一创新功能大大简化了角色创作流程,确保其在不同图像中的统一性。通过 Ideogram 的新功能,用户现在可以将角色精准地放置在图像中的特定位置,或利用Remix工具将现有角色的风格应用到新图像上。该功能还支持高度自定义,用户可以调整角色的头发、服装和配饰等细节,并将这些设置保存下来,以便在未来的项目中重复使用。Ideogram 官方表示,此功能的潜在应用场景非常广泛,包括广告视频、在线商店、YouTube 缩略图、漫画创作以及游戏开发等多个领域。地址::developer.ideogram.ai本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20349重磅!OpenAI 宣布 GPT-5免费开放,Altman 称其为有史以来最智能的模型
2025年8月8日 12:00
重磅!OpenAI 宣布 GPT-5免费开放,Altman 称其为有史以来最智能的模型AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202590OpenAI 正式发布了其备受期待的GPT-5模型,并宣布从即日起对所有用户免费开放。这家由首席执行官Sam Altman领导的公司将其誉为迄今为止最智能、最快、最有用的模型,称其在数学、科学、金融和法律等领域能提供更加精准的回应。GPT-5的核心亮点与承诺在发布会上,Altman 将 GPT-5比作苹果 iPhone 的视网膜显示屏,强调其超高的精确度,使用户感觉像是在与任何主题的专家交谈。他毫不掩饰地声称,GPT-5是世界上最好的编码模型和写作模型,在医疗健康等领域同样表现出色。GPT-5是一款推理模型,能够通过迭代方式解决问题,从而得出最终结果。为了支持这一新模型,OpenAI 正在采取果断行动。研究员 Tina Kim 表示,公司将淘汰所有旧模型,以确保 GPT-5成为其核心技术。OpenAI 还声称,GPT-5解决了困扰现有 AI 模型的两大难题:幻觉问题和网络安全漏洞。尽管公司表示新模型能更轻松地关联 Google 账户,并对劫持企图具有更强的抵御能力,但《连线》杂志最近的报道显示,ChatGPT 仍存在明显的网络安全漏洞,因此其安全性仍有待实践检验。个性化与未来展望GPT-5提供了四种预设性格选项,包括愤世嫉俗者、机器人、倾听者和书呆子,旨在增强模型的可定制性。尽管 Altman 对 GPT-5充满自信,但他坦承,OpenAI 距离实现其核心目标通用人工智能(AGI)还有很长的路要走。他认为 GPT-5只是朝着这个方向迈出的重要一步,并承认目前仍然缺少一些非常重要的东西。此外,OpenAI 最近发布了一项更新,在长时间会话中加入温和提醒,鼓励用户休息,以解决用户可能出现的ChatGPT 精神病等妄想症问题。商业与市场动态就在 GPT-5发布之前,OpenAI 本周早些时候还推出了两款名为gpt-oss-120b和gpt-oss-20b的最先进的开放权重语言模型,但这些模型无疑将被 GPT-5的光芒所掩盖。作为一家前非营利组织,OpenAI 目前的商业价值正急剧攀升。有消息称,该公司正在洽谈一轮潜在的二级股票发行,估值可能高达5000亿美元,这使其在 AI 领域的地位愈发稳固。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20348OpenAI发布GPT-5 微软旗下生态宣布已全面接入
2025年8月8日 12:00
OpenAI发布GPT-5 微软旗下生态宣布已全面接入AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202542今日,OpenAI正式推出备受瞩目的全新GPT-5系列模型,这一里程碑式的发布迅速引发行业震动。几乎在同一时间,微软宣布将GPT-5深度整合至旗下Copilot、Microsoft365Copilot、Azure AI Foundry及GitHub Copilot等核心平台,标志着GPT-5正式全面登陆微软生态系统,为用户带来前所未有的智能体验升级。GPT-5系列模型引入了创新的智能模式,能够根据用户任务需求自动切换适配的模型版本。面对复杂任务时,系统会自动调用推理能力更强的版本;而在需要快速响应的场景中,则优先选择速度更快的模型。这种动态调整机制大幅提升了使用效率与灵活性。值得注意的是,OpenAI此前已向ChatGPT免费用户开放GPT-5,此次微软同样延续这一策略,Copilot用户无需额外付费即可体验该模型的强大功能。开发者社区同样迎来重大利好。GitHub宣布为所有付费GitHub Copilot用户推出GPT-5支持,开发者可立即测试新模型在代码生成、逻辑优化等场景中的性能突破。据悉,GPT-5系列包含四个细分版本,其中主版本专注于多步骤逻辑任务处理,而GPT-5-chat则针对企业级对话需求设计,具备多模态交互与上下文感知能力,可实现更自然的智能对话体验。在基础设施层面,微软将GPT-5引入Azure AI Foundry,开发者现在能够在AI应用开发中直接调用这一前沿模型。通过内置的智能模型路由器,Azure平台可根据任务特性自动匹配最优模型版本,从而在保证效果的同时最大化执行效率。这一创新架构为AI应用的规模化部署提供了坚实的技术支撑。从办公软件到开发工具,从云端服务到智能助手,微软与OpenAI的深度合作正在重塑人工智能的应用边界。随着GPT-5在微软生态中的全面落地,一场以智能升级为核心的产业变革已然拉开帷幕。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20347AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析
2025年8月8日 12:00
AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202551根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级)的得分为9.9%,每项任务成本为0.73美元。而Grok4(思考型)的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。ARC-AGI 基准上领先语言模型的性能和成本比较。| 图片:ARC-AGI在要求相对较低的ARC-AGI-1测试中,Grok4再次以68% 的准确率领先,略高于 GPT-5的65.7%。尽管 Grok4的准确率更高,但其每项任务约1美元的成本远高于 GPT-5的0.51美元,使得GPT-5在此测试中更具性价比。不过,xAI 仍有可能通过价格调整来缩小这一差距。此外,报告还提到了 GPT-5的轻量级版本。GPT-5Mini在 AGI-1和 AGI-2上的得分分别为54.3% 和4.4%,成本分别为0.12美元和0.20美元。而更小巧的GPT-5Nano在 AGI-1上达到16.5%(0.03美元),在 AGI-2上达到2.5%(0.03美元)。ARC-AGI-1对 Grok4、GPT-5和较小模型变体的测试结果。| 图片:ARC 奖值得注意的是,在 ARC-AGI-1测试中,于2024年12月发布的o3-preview模型以接近80% 的惊人准确率遥遥领先,但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5演示中并未提及 ARC 奖,但据The Information报道,该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。除了上述基准测试,ARC-AGI-3也在进行中,该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对,但大多数 AI 代理在视觉益智游戏中仍然面临挑战。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20346GPT-5评测:全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型
2025年8月8日 12:00
GPT-5评测:全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 2025120核心要点:2025年8月,AI领域迎来了新的里程碑。OpenAI发布的GPT-5、Anthropic的Claude4Opus以及Google的Gemini2.5Pro代表了当前大语言模型的最高水准。本文将基于最新的基准测试数据,为您提供这三款顶级AI模型的深度评测对比。关键发现:GPT-5在数学推理方面表现卓越(AIME2025达94.6%),Claude4Opus成为编程领域的新王者(SWE-bench72.5%),而Gemini2.5Pro则在长上下文和多模态处理方面独领风骚(100万token上下文窗口)。一、2025年AI模型格局概览2025年8月7日,OpenAI正式发布GPT-5,这标志着大语言模型进入了全新的发展阶段。与此同时,Anthropic的Claude4Opus(5月发布)和Google的Gemini2.5Pro形成了三足鼎立的竞争格局。本次GPT-5评测将深入分析这三款模型在各个维度的表现差异。从整体架构来看,这三款模型都采用了混合推理模式,能够在快速响应和深度思考之间智能切换。GPT-5采用统一系统架构,集成了快速模型、深度推理模型和实时路由器;Claude4Opus提供即时响应和扩展思考两种模式;而Gemini2.5Pro则以其庞大的上下文窗口成为处理长文档的首选工具。二、核心性能基准测试对比为了客观评估三款模型的实际能力,我们收集了最新的官方基准测试数据。以下表格展示了关键指标的对比结果:2.1编程能力对比分析在编程能力方面,GPT-5展现了全面的优势。在SWE-bench Verified基准测试中,GPT-5以74.9%的成绩领先,这一结果表明其在实际软件工程任务中的表现最为出色。Claude4Opus紧随其后,达到72.5%,被誉为"世界最佳编程模型"。相比之下,Gemini2.5Pro在编程方面的表现相对保守,为63.8%。值得注意的是,Claude4Opus在Terminal-bench测试中表现突出,达到43.2%,这显示了其在终端操作和系统管理任务方面的专业能力。对于需要进行复杂代码库操作和调试的开发者而言,GPT-5和Claude4Opus都是优秀的选择。2.2数学推理能力评估数学推理能力是衡量AI模型逻辑思维的重要指标。在AIME2025测试中,GPT-5取得了令人瞩目的94.6%成绩,这一结果接近人类数学竞赛顶尖水平。Gemini2.5Pro在AIME2024中表现最佳(92.0%),但在2025年的测试中略有下降(86.7%)。Claude4Opus在数学推理方面相对较弱,AIME测试成绩仅为33.9%。这表明虽然Claude4Opus在编程领域表现卓越,但在纯数学推理任务中还有提升空间。2.3多模态处理能力在多模态理解方面,GPT-5在MMMU基准测试中达到84.2%,展现了其在处理文本、图像、音频等多种输入类型时的综合能力。Gemini2.5Pro以81.7%的成绩紧随其后,但考虑到其原生支持视频输入,实际多模态应用能力可能更为出色。Claude4Opus在多模态方面的表现相对有限(73.7%),这主要是因为其设计重心更多放在了文本处理和编程任务上。三、功能特性深度对比3.1上下文处理能力对比在上下文处理能力方面,Gemini2.5Pro拥有绝对优势。其100万token的上下文窗口(计划扩展至200万)使其能够处理整本书籍、大型代码库或详细的技术文档。MRCR基准测试中91.5%的成绩充分证明了这一能力。相比之下,GPT-5和Claude4Opus的上下文窗口相对较小,但在实际应用中已能满足大多数场景需求。GPT-5通过其统一架构实现了更高效的上下文利用,而Claude4Opus则通过改进的内存机制来增强长期任务处理能力。3.2安全性和可靠性GPT-5在安全性方面采用了全新的"安全完成"训练范式,相比传统的拒绝式安全训练更加灵活和实用。官方数据显示,GPT-5的幻觉错误率比GPT-4o减少了45%,在事实性方面有显著提升。Claude4Opus继承了Anthropic一贯的安全优先理念,通过Constitutional AI训练方法确保输出内容的安全性和有害性。在减少捷径行为方面,Claude4Opus比Claude3.7Sonnet改善了65%。Gemini2.5Pro虽然在安全性方面没有特别突出的创新,但Google在负责任AI方面的长期投入为其提供了可靠的安全保障。四、使用场景和应用建议4.1编程和软件开发推荐顺序:GPT-5> Claude4Opus > Gemini2.5Pro对于软件开发者而言,GPT-5凭借74.9%的SWE-bench成绩成为首选。其在复杂前端生成、调试大型代码库方面的能力尤为出色,能够创建美观且响应式的网站、应用和游戏。Claude4Opus作为"世界最佳编程模型",在代码质量和精确度方面表现优异,特别适合需要长时间专注编程任务的场景。Gemini2.5Pro虽然在编程基准测试中表现一般,但其庞大的上下文窗口使其在处理大型代码库分析、文档生成等任务中具有独特优势。4.2数学和科学研究推荐顺序:GPT-5> Gemini2.5Pro > Claude4Opus在数学推理和科学研究领域,GPT-5凭借94.6%的AIME2025成绩展现了PhD级别的智能水平。其在复杂数学问题解决、科学论文分析方面的能力接近专业研究人员水准。Gemini2.5Pro在GPQA Diamond测试中的84.0%成绩显示了其在科学问答方面的强项,结合其多模态能力,特别适合处理包含图表、公式的科研文档。4.3长文档处理和分析推荐顺序:Gemini2.5Pro > GPT-5> Claude4Opus对于需要处理长篇文档、研究报告、法律文件等场景,Gemini2.5Pro凭借其100万token的上下文窗口具有压倒性优势。91.5%的MRCR成绩证明了其在长上下文理解方面的卓越能力。这一特性使Gemini2.5Pro成为律师、研究人员、咨询顾问等专业人士的理想选择,能够一次性处理整本书籍或完整的项目文档。4.4多媒体内容创作推荐顺序:Gemini2.5Pro > GPT-5> Claude4Opus在多媒体内容处理方面,Gemini2.5Pro支持文本、图像、音频和视频等多种输入格式,使其在内容创作、媒体分析等领域具有明显优势。其能够理解和分析视频内容的能力为创作者提供了强大的工具。GPT-5虽然在MMMU测试中表现最佳(84.2%),但在实际多媒体应用中,Gemini2.5Pro的原生多模态支持可能更具实用价值。 专业模型选择建议在选择合适的AI模型时,建议使用AIbase模型广场进行详细对比。该平台提供了实时的模型性能数据、价格信息和用户评价,能够帮助您根据具体需求做出最优选择。AIbase模型广场不仅支持GPT-5、Claude4Opus、Gemini2.5Pro等顶级模型的对比,还提供了丰富的测试工具和基准数据,是AI从业者和企业决策者不可多得的参考平台。通过其直观的对比界面,您可以快速了解不同模型在特定任务上的表现差异,从而做出明智的技术选择。五、定价和可用性分析5.1性价比分析从定价角度看,GPT-5和Gemini2.5Pro提供了相同的价格水平($1.25/$10.00),而Claude4Opus的定价显著更高($15/$75)。考虑到性能差异,GPT-5在大多数任务上的表现均衡性更好,因此整体性价比最高。Gemini2.5Pro虽然在某些基准测试中略逊于GPT-5,但其独特的长上下文能力和多模态支持为特定用例提供了无可替代的价值。Claude4Opus的高定价主要体现在其专业编程能力和企业级可靠性上。5.2访问方式和部署选择GPT-5目前通过ChatGPT平台和OpenAI API提供服务,支持Plus、Pro、Team和Enterprise等多个订阅层级。企业用户可以获得更高的使用限额和优先支持。Claude4Opus通过Claude.ai网页版、API以及Amazon Bedrock和Google Cloud Vertex AI等云平台提供服务。其企业级部署选择更为丰富,适合大型组织的集成需求。Gemini2.5Pro目前主要通过Google AI Studio和Gemini API提供访问,计划很快在Vertex AI平台上线。Google还提供了Gemini Advanced订阅计划,为个人用户提供更便捷的访问方式。六、技术架构深度解析6.1GPT-5的统一系统架构GPT-5采用了创新的统一系统设计,集成了三个核心组件:智能高效模型负责处理大多数常规问题,深度推理模型(GPT-5thinking)专门处理复杂问题,实时路由器则根据对话类型、复杂度、工具需求和用户明确意图来智能决定使用哪个模型。这一架构的优势在于能够在保证响应速度的同时提供高质量输出。路由器通过持续学习用户切换模型的行为、响应偏好率和准确性测量等真实信号来不断改进决策能力。6.2Claude4Opus的混合推理模式Claude4Opus采用混合推理架构,支持近即时响应和扩展思考两种模式。特别值得注意的是,它支持在扩展思考过程中使用工具,能够在推理和工具使用之间交替进行,从而显著提升响应质量。在内存能力方面,Claude4Opus能够创建和维护"记忆文件"来存储关键信息,这为长期任务感知、连贯性和代理任务性能提供了强有力的支持。6.3Gemini2.5Pro的大上下文架构Gemini2.5Pro的核心优势在于其庞大的上下文处理能力。100万token的上下文窗口(约75万英文单词)使其能够在单次对话中处理完整的技术手册、研究报告或代码库。该模型还具备强大的多模态整合能力,能够同时处理文本、图像、音频和视频输入,为复杂的多媒体分析任务提供了理想的技术基础。七、实际应用案例分析7.1企业级应用场景在企业应用中,三款模型展现出不同的专业特色。Cursor公司将Claude4Opus评价为"编程领域的最新技术",认为其在复杂代码库理解方面实现了突破性进展。Replit报告称Claude4Opus在多文件复杂更改方面的精确度和进步幅度都非常显著。GPT-5在经济价值知识工作的内部基准测试中表现出色,在涵盖法律、物流、销售和工程等40多个职业的任务中,使用推理功能时,GPT-5在大约一半的案例中与专家相当或更好。Google的企业客户主要利用Gemini2.5Pro的长上下文能力来处理大型文档分析、合规检查和知识管理任务,其100万token的处理能力在这些场景中具有独特价值。7.2开发者生态系统GitHub宣布将Claude Sonnet4作为其新编程代理GitHub Copilot的驱动模型,这一选择反映了Claude在代理场景中的卓越表现。Sourcegraph报告称Claude Sonnet4在软件开发方面展现出实质性飞跃,能够更长时间保持正确轨道,更深入理解问题,并提供更优雅的代码质量。OpenAI为开发者提供了丰富的GPT-5集成工具,包括Codex CLI命令行界面,使得开发者能够直接在终端中使用GPT-5进行编程任务。八、未来发展趋势预测8.1技术演进方向基于当前三款模型的特性分析,我们可以预见未来AI模型的发展将围绕以下几个方向:混合推理架构标准化:所有主要模型都采用了快速响应和深度推理相结合的架构,这种设计将成为行业标准。上下文窗口持续扩大:Gemini2.5Pro计划扩展至200万token,预计其他模型也会跟进这一趋势。多模态能力增强:视频理解、音频处理等能力将成为基础配置。专业化与通用化并行:模型将在保持通用能力的同时,在特定领域(如编程、科学研究)实现更深度的专业化。8.2应用场景拓展随着模型能力的提升,我们预期将看到以下应用场景的快速发展:自主软件开发:基于GPT-5和Claude4Opus的编程能力,完全自主的软件开发工作流将成为可能。科研助手:GPT-5的数学推理能力使其能够承担更多科研辅助工作。大规模文档智能:Gemini2.5Pro的长上下文能力将推动企业知识管理的革命性变化。多媒体内容自动化:视频理解和生成能力的结合将开创新的内容创作模式。结论与选择建议综合评估结果:GPT-5 - 全面均衡型选择:如果您需要一个在各个方面都表现优秀的模型,GPT-5是最佳选择。其在编程、数学、多模态等领域的均衡表现,结合合理的定价,使其成为大多数用户的首选。Claude4Opus - 专业编程首选:对于软件开发团队和需要高质量代码生成的用户,Claude4Opus的专业编程能力值得其较高的定价成本。Gemini2.5Pro - 长文档处理专家:当您需要处理大型文档、进行深度研究分析或多媒体内容创作时,Gemini2.5Pro的长上下文和多模态能力无可替代。最终建议:根据具体应用场景选择合适的模型,或者考虑多模型组合使用策略。建议通过AIbase模型广场等平台进行详细测试,以找到最适合您需求的解决方案。本评测基于2025年8月最新官方数据 | 数据来源:OpenAI、Anthropic、Google官方发布更多AI模型对比信息,请访问AIbase模型广场:https://model.aibase.com/zh/compare本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20345马斯克计划在 Grok 回复中引入广告,以提振 X 平台广告业务
2025年8月8日 09:00
马斯克计划在 Grok 回复中引入广告,以提振 X 平台广告业务AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 8, 202520.3k据《金融时报》报道,埃隆·马斯克近日在一次面向广告商的直播中透露,他计划在旗下社交平台 X 的 AI 聊天机器人Grok的回复中引入广告。此举旨在推动 X 平台陷入困境的广告业务,尤其是在前首席执行官琳达·亚卡里诺离职之后。马斯克在直播中强调,Grok 的首要任务是成为世界上最智能、最精准的人工智能,并表示这一目标已经基本达成。接下来,他将把重心转向如何支付高昂的GPU 成本。他向广告商明确表示,未来将允许营销人员付费,让他们的产品或服务出现在 Grok 的建议中。马斯克解释说:如果用户试图(通过询问 Grok)解决问题,那么宣传具体的解决方案将是理想的选择。此外,马斯克还计划利用其人工智能初创公司xAI的技术来优化 X 平台上的广告定位。今年早些时候,xAI 以450亿美元的价格收购了 X。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -
信息源:AIBase 来源:https://www.aibase.com/zh/news/20339