移动端背景

"如果你不冒险去做你害怕的事情,你就永远不会成功。"

——埃隆·马斯克

腾讯 AI Lab 全新开源框架,助力深度研究智能体的崛起
2025年8月7日 12:00

腾讯 AI Lab 全新开源框架,助力深度研究智能体的崛起AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 20251随着大语言模型(LLM)和视觉 - 语言模型(VLM)的迅速发展,智能体在知识发现和问题解决的方式上正在经历革命性的变化。然而,许多现有的开源智能体框架过于依赖昂贵的付费工具,这在很大程度上限制了它们的可复现性和普适性。为此,腾讯 AI Lab 推出了全新开源的智能体框架 Cognitive Kernel-Pro,旨在最大限度地降低外部依赖,使更多研究人员和开发者能够轻松参与智能体的开发和训练。Cognitive Kernel-Pro 采用了多模块、层次化的设计,主要由主智能体和多个子智能体组成。主智能体负责任务分解和信息整合,而子智能体则专注于特定任务,如网页浏览和文件处理。这种模块化结构确保了各部分的独立性和扩展性。为了提升复杂任务的处理效率,Cognitive Kernel-Pro 引入了 进度状态 机制,智能体可以记录已完成的步骤和待办任务。此外,框架通过简单的文本接口实现主智能体和子智能体之间的高效通信,便于协作与调试。同时,反思和投票机制的引入,进一步优化了智能体的任务完成质量,特别是在网页浏览等高随机性的任务中。在性能方面,Cognitive Kernel-Pro 在 GAIA 基准测试中表现出色,超越了其他开源框架 SmolAgents,接近那些依赖付费工具的智能体。这一成果得益于其创新的训练方法,涵盖网页导航、文件处理和推理等多个领域。除了强大的框架设计,腾讯 AI Lab 还提供了 Agent Foundation Model 的训练配方,进一步推动了社区的研究和发展。相关代码和技术报告已在 GitHub 上公开,供大家共同探索与利用。项目地址:https://github.com/Tencent/CognitiveKernel-Pro本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20313

微软宣布 Windows 11 本地支持 OpenAI 开源模型 gpt-oss-20b
2025年8月7日 12:00

微软宣布 Windows 11 本地支持 OpenAI 开源模型 gpt-oss-20bAIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202527微软近日宣布,通过其Windows AI Foundry平台,正式向 Windows11用户提供 OpenAI最新发布的免费开源大模型gpt-oss-20b。这意味着用户无需依赖云端,即可直接在本地电脑上调用强大的 AI 功能和各类热门开源模型。微软在博客中指出,gpt-oss-20b 是一款轻量且高效的模型,尤其擅长执行代码、调用外部工具等任务。它能在多种 Windows 硬件上高效运行,未来还将支持更多设备。即便在网络带宽受限的环境下,该模型也适合构建自主 AI 助手或将 AI 集成到日常工作流中。据悉,这款模型能在配备至少16GB 显存的主流消费级 PC 或笔记本上运行。OpenAI 表示,gpt-oss-20b 经过高强度计算资源的强化学习训练,特别擅长处理思维链式任务,如调用工具进行网页搜索或执行代码。不过,作为 OpenAI 的最小开源模型,gpt-oss-20b 仅支持文本处理,无法生成图像或音频。OpenAI 同时也提醒,该模型的**幻觉比例较高**,在内部测试中,其回答中约有53%存在事实错误。除了 Windows11,微软表示未来计划将该模型引入macOS等更多平台。目前,gpt-oss-20b 已在微软的Azure AI Foundry和亚马逊的AWS平台上线,为云端开发者提供了更多选择。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20312

AI国际象棋大赛火热开战!Grok 4一骑绝尘,DeepSeek与 Kimi K2的冤屈
2025年8月7日 12:00

AI国际象棋大赛火热开战!Grok 4一骑绝尘,DeepSeek与 Kimi K2的冤屈AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202523近日,谷歌与 Kaggle 联合举办的首届 AI 国际象棋对战赛事备受瞩目。在这一场 智力的较量 中,马斯克旗下的 Grok4展现了非凡的实力,成为首日比赛的绝对焦点。这场比赛聚集了多款顶尖AI 模型,参赛选手包括 OpenAI 的 o3和 o4-mini、DeepSeek R1、Kimi K2Instruct、Gemini2.5Pro、Gemini2.5Flash、Claude Opus4和 Grok4。比赛于8月5日至7日每天下午10:30(太平洋时间)准时直播,国际象棋特级大师中村光(Hikaru Nakamura)也受邀担任解说。首日对决中,Grok4以超凡的战术表现和快速反应获得了最高评价,而 DeepSeek R1虽表现强劲,但不敌 o4-mini,Kimi K2则被认为惨遭不公,网友们纷纷为其鸣冤。马斯克对此次比赛的成功表现淡定回应:我们并没有特别训练,这只是一个副产品。 可见,他对此次比赛的宣传价值可谓深谙其道。虽然比赛结果引起了热议,但其真正的意义在于测试 AI 的 涌现能力。国际象棋以其明确的规则和高复杂度(存在约10^120种可能局面)成为了评估 AI 决策能力的理想舞台。很多网友表示,这场比赛不仅仅是输赢的较量,更是 AI 综合能力的全面展示。经过首轮较量,Grok4与 Gemini2.5Pro、OpenAI 的 o4-mini 和 o3晋级半决赛。各对决中,Grok4如猛兽般的表现让人惊叹,而 Kimi K2的频繁违规行为则让其面临被淘汰的境地,观众对此颇有微词。尽管如此,比赛仍在继续,大家期待后续的精彩对决。为何选择国际象棋作为 AI 对战的舞台?这主要是因为国际象棋规则清晰但战略复杂,能够有效评估 AI 的决策能力。正如网友所说,这场比赛的结果不仅是对各模型能力的检测,更是对 AI 技术的一次深度探索。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20311

谷歌AI编程助手Jules正式上线,异步代码修复功能挑战传统开发工具
2025年8月7日 12:00

谷歌AI编程助手Jules正式上线,异步代码修复功能挑战传统开发工具AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 20254谷歌周三宣布其AI编程助手Jules正式结束测试阶段,距离5月公开预览版发布仅过去两个多月。这款基于Gemini2.5Pro的工具为开发者提供了全新的异步编程体验,有望重新定义代码开发流程。Jules采用独特的异步代理架构,能够与GitHub深度集成,将代码库克隆到谷歌云虚拟机中,并在开发者专注其他任务时自动修复或更新代码。这一设计理念与市面上主流的同步式AI编程工具形成鲜明对比。谷歌最初在去年12月将Jules作为Google Labs项目发布,并在今年I/O开发者大会上向测试用户开放公开预览版。Google Labs产品总监Kathy Korevec向TechCrunch表示,工具稳定性的显著改善是决定结束测试阶段的主要原因,测试期间Jules接受了数百项用户界面和质量更新。"我们的发展轨迹让我们对Jules的长期前景充满信心,"她表示。随着正式版发布,谷歌为Jules引入了结构化定价体系。免费的"入门级访问"计划每日限制15个独立任务和3个并发任务,相比测试期间的60个任务限制大幅降低。付费版本分为AI Pro计划(月费19.99美元)和Ultra计划(月费124.99美元),分别提供5倍和20倍的使用限额。Korevec解释称,Jules的打包和定价策略基于过去几个月收集的"真实使用"数据。"60个任务的上限帮助我们研究开发者如何使用Jules,为新的打包设计提供了必要信息。每日15个任务的限制旨在让用户了解Jules是否适合他们的实际项目需求。"在隐私政策方面,谷歌进行了重要更新,更明确地说明AI训练数据的使用方式。对于公开代码库,其数据可能用于训练,但私有代码库的数据不会被发送用于训练。"我们收到一些用户反馈,认为隐私政策不够清晰,因此主要是回应这一问题。我们在训练方面的做法没有改变,只是调整了表述方式,"Korevec说道。测试期间的数据显示,数千名开发者完成了数万项任务,产生了超过14万项公开分享的代码改进。用户反馈促使团队增加了多项新功能,包括重复使用先前设置以加快任务执行、与GitHub问题集成,以及支持多模态输入。Jules的核心优势在于其异步工作模式。与Cursor、Windsurf和Lovable等需要用户实时观看输出的同步工具不同,Jules可以在虚拟机中独立运行。"Jules就像额外的一双手...你基本上可以给它分配任务,然后关闭电脑离开,几小时后回来时Jules已经完成了这些任务。而如果使用本地代理或同步代理,你必须绑定在那个会话中,"Korevec解释道。最新更新包括与GitHub的深度集成以自动开启拉取请求,以及名为"环境快照"的功能,可保存依赖项和安装脚本为快照,实现更快、更一致的任务执行。根据市场情报提供商SimilarWeb的数据,自公开测试以来,Jules在全球获得了228万次访问,其中45%来自移动设备。印度是流量最大的市场,其次是美国和越南。测试期间,团队观察到许多用户将Jules用于修复从传统"氛围编程"工具实现的错误,或扩展这些项目使其更适合生产环境。最初Jules要求用户拥有现有代码库,但谷歌很快意识到许多潜在用户可能希望在没有代码库的情况下探索该工具,因此启用了空存储库支持功能。值得注意的是,越来越多用户通过移动设备访问Jules。尽管该工具还没有专用移动应用,但用户正通过网页应用使用它。"由于这是我们看到的一个新兴重要用例,我们正在积极探索移动端用户需要的功能,"Korevec表示。除了外部测试用户,谷歌内部也在使用Jules协助开发项目,目前公司内部正大力推动在"更多项目"中使用这一工具。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20310

AI短剧制作迈入新阶段:单人团队打造爆款,播放量破亿
2025年8月7日 12:00

AI短剧制作迈入新阶段:单人团队打造爆款,播放量破亿AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202560据红星新闻报道,随着技术手段的不断发展,短剧制作方式正在经历变革。今年以来,基于自动化生成的短剧逐步走红,一部名为《九尾狐男妖爱上我》的短剧更是在社交平台上引发热议,目前累计播放量已突破1.8亿次。该剧从角色到场景,全部通过自动化方式生成,仅由一人完成制作。据短剧创作者辣糖介绍,这一类短剧的兴起,与年初相关工具爆红密切相关。相比传统真人短剧动辄以天为单位的制作周期,此类短剧最快仅需数小时即可完成,大幅降低了时间与人力成本,制作团队甚至可精简至一人。面对新赛道的潜力,一些大型内容平台和公司已开始入局布局。然而在收入与商业化方面,与传统真人短剧相比仍存在显著差距。短剧平台榜单新腕儿的主编张女士表示,目前这类短剧尚未在市场中形成稳定规模,仍属早期尝试阶段。针对低成本、高收益的传言,业内人士予以否认。辣糖指出,虽然部分制作工具费用低至几十元,但实际成本远不止于此,还包括设备投入、员工薪资等支出。她表示,所谓月入50万元的说法并不现实,月收入在五位数左右较为常见。另一位全职从事该领域的从业者小朱也透露,目前其每月收入约为2万元左右,尚未形成可以与成熟影视产业相提并论的盈利模式。尽管当前仍面临商业化挑战,这类短剧以其快速迭代、轻量化制作等优势,正在吸引更多内容创作者关注。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20309

谷歌推出新编程工具 Jules,支持异步处理任务并集成 GitHub
2025年8月7日 12:00

谷歌推出新编程工具 Jules,支持异步处理任务并集成 GitHubAIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202542谷歌公司今日(8月7日)发布公告,正式推出一款名为 Jules 的全新编程工具。该工具支持与 GitHub 深度集成,具备异步处理代码修复与更新任务的能力,有助于开发者提升编程效率。据介绍,Jules 可直接将代码库克隆至云端虚拟机运行环境中,实现对 GitHub 仓库中的任务进行自动化处理。开发者无需手动干预,即可在后台完成大量重复性编程操作,从而节省时间、提高工作产出。该工具于今年5月开启公开测试,期间吸引了大批开发者参与。据谷歌披露,在测试阶段,全球已有成千上万名开发者使用 Jules 处理了数以万计的编程任务,并累计提交超过14万项代码改进建议,显示出该工具在实际应用中的广泛认可度。根据用户反馈,谷歌近期为 Jules 增加了多项实用功能,包括复用既有设置以加快任务执行速度、整合 GitHub 问题管理系统、以及支持图文等多种形式的输入内容。目前,该工具的用户群体主要包括专业开发者和技术爱好者。在定价方面,谷歌为 Jules 提供结构化的服务方案。免费用户每日最多可执行15项任务,同时最多可并发运行3个任务。付费方案则包含在 Google Pro 和 Ultra 套餐中,分别定价为每月19.99美元和124.99美元。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20308

GPT-5 即将登场?OpenAI 预告神秘直播,多位高管暗示新一代模型将至
2025年8月7日 12:00

GPT-5 即将登场?OpenAI 预告神秘直播,多位高管暗示新一代模型将至AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202551根据 OpenAI 官方在 X 平台发布的预告以及多位高管的暗示,万众期待的GPT-5模型似乎即将在本周四的直播活动中正式亮相。这一消息迅速在科技界引发热议,人们普遍猜测,这款新一代大模型将带来前所未有的技术飞跃。官方线索与高管暗示OpenAI 在其 X 账号上发布了一条神秘的直播预告,写着太平洋时间周四上午10点,LIVE5TREAM。眼尖的网友立刻发现,livestream一词中的字母s被巧妙地替换成了数字5。这一看似不经意的细节,被广泛解读为对 GPT-5即将发布的强烈暗示。在此之前,OpenAI 首席执行官 Sam Altman 和公司的应用研究主管也发布了多条相关信息,为这一猜测增添了更多可信度。Sam Altman 曾发布一张屏幕截图,左上角赫然显示着ChatGPT5,而应用研究主管也公开表达了对公众对GPT-5的接受程度的期待。这些高管的言论与此次直播预告相互呼应,使得 GPT-5的发布几乎板上钉钉。强大的性能和潜在功能虽然官方尚未公布 GPT-5的具体技术细节,但坊间的传闻和内部消息已经勾勒出其强大的能力。据《The Verge》记者汤姆·沃伦(Tom Warren)此前报道,微软一直在为新模型的发布准备服务器容量,这表明 GPT-5的计算需求将非常庞大。根据行业内部人士的说法,GPT-5预计将是一个统一的系统,整合了 OpenAI 的 o3推理引擎等多个独立模型。它有望在以下几个方面实现显著提升:更强的逻辑推理能力:在处理复杂任务和高级推理时表现更出色。原生多模态处理:能够在一个对话线程中流畅地处理文本、图像、甚至视频,实现更自然的交互。更长的上下文窗口和记忆:记忆能力大幅提升,支持更长、更连贯的多轮对话。更低的幻觉率:模型的输出将更加可靠,并能更诚实地表达不确定性。此外,GPT-5还可能以多种版本发布,包括面向高端用户的旗舰版、更轻量级的 mini 版本以及专为 API 设计的 nano 版本,以满足不同场景下的需求。对 AI 生态的影响GPT-5的发布将为 OpenAI 本已重要的一周增添新的亮点。就在周二,该公司刚刚宣布发布GPT-OSS,一款可在笔记本电脑上运行的免费开放权重模型,展现了其在开源领域的探索。而 GPT-5的到来,将进一步巩固 OpenAI 在前沿 AI 技术领域的领先地位。如果 GPT-5真的能如期发布并实现传闻中的强大功能,它无疑将成为 AI 发展历程中的一个重要里程碑,开启一个全新的 AI 应用时代。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20307

腾讯开源文档理解与语义检索框架 WeKnora维娜拉
2025年8月7日 12:00

腾讯开源文档理解与语义检索框架 WeKnora维娜拉AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202547腾讯近期正式开源了全新的文档理解与语义检索框架WeKnora(维娜拉)。这是一套专为结构复杂、内容异构的文档场景打造的智能问答解决方案,旨在为企业级文档问答提供高效、可控的端到端流程。WeKnora采用现代化模块化设计,构建了一条完整的文档理解与检索流水线,涵盖文档处理、知识建模、检索引擎、推理生成以及交互展示等核心模块。文档处理层负责多种格式文档的解析与预处理,将非结构化内容转换为结构化数据;知识建模层通过向量化、分块、知识图谱和索引等技术构建知识表示;检索引擎层集成多种检索策略,实现高效精准的内容召回;推理生成层利用大语言模型对检索结果进行理解和生成;交互展示层则提供直观的用户界面和标准API接口。WeKnora基于大语言模型(LLM)构建,融合了多模态预处理、语义向量索引、智能召回与大模型生成推理等技术。其技术亮点包括强大的多模态认知引擎,能够精准解析PDF、Word、图片中的图文混排内容,提取文本、表格及图像语义信息,并融合OCR与跨模态建模技术构建统一的结构化知识中枢。模块化RAG流水线设计支持自由组合检索策略、大语言模型与向量数据库,能够无缝集成Ollama等平台,灵活切换Qwen、DeepSeek等主流模型,满足企业知识库的高效定制需求。精准推理与可信决策保障结合私有化部署、多轮上下文深度理解与全链路可视化评估,为高敏感场景提供可靠的知识支撑。此外,WeKnora还支持本地化部署和Docker镜像,兼容私有云及离线环境,内置监控日志体系,提供全链路可观测性,帮助运维人员高效管理。开箱即用的交互体验包括一键启动脚本和直观的Web UI界面,非技术用户也可以快速完成文档索引、智能问答等服务的部署与应用。WeKnora广泛适用于多种企业级文档问答场景,包括企业知识管理、科研文献分析、产品技术支持、法律合规审查以及医疗知识辅助等。它提供了直观易用的Web界面,支持拖拽上传各类文档,自动识别文档结构并提取核心知识,建立索引。系统还支持知识图谱可视化,能够将文档转化为知识图谱,展示文档中不同段落之间的关联关系,提升检索结果的相关性和广度。WeKnora的部署方式灵活多样。本地部署方面,它提供了完整的Docker化部署方案,用户只需通过简单的命令即可快速启动服务。此外,WeKnora作为微信对话开放平台的核心技术框架,还支持零代码部署,用户只需上传知识,即可在微信生态中快速部署智能问答服务,实现即问即答的体验。通过微信对话开放平台,WeKnora的智能问答能力可无缝集成到公众号、小程序等微信场景中,提升用户交互体验。WeKnora采用MIT协议开源,欢迎社区用户参与贡献,无论是Bug修复、功能开发、文档改进还是用户体验优化,腾讯都期待大家的参与与反馈。项目地址为https://github.com/Tencent/WeKnora,感兴趣的开发者可以访问GitHub仓库,了解更多详情,共同构建更智能、更高效的文档理解与检索新范式。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20306

MiniCPM-V4.0开源发布,堪称手机上的 GPT-4V
2025年8月7日 12:00

MiniCPM-V4.0开源发布,堪称手机上的 GPT-4VAIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202548OpenBMB 团队近日宣布,新一代多模态大模型MiniCPM-V4.0正式开源发布。该模型凭借其轻量级架构和卓越性能,被誉为手机上的 GPT-4V,有望为移动设备上的 AI 应用带来革命性的突破。MiniCPM-V4.0的核心在于其精巧的设计。它基于SigLIP2-400M和MiniCPM4-3B构建,参数量仅为4.1B,却在图像、多图像和视频理解方面展现出强大的能力。这使得它不仅能轻松处理单张图片,还能理解复杂的多图关联内容和视频片段,为用户带来更智能的交互体验。尽管参数量小,MiniCPM-V4.0的性能表现却令人惊叹。在权威的 OpenCompass 八大主流评测基准上,该模型平均得分高达69.0,超越了 GPT-4.1-mini 和 Qwen2.5-VL-3B 等一众竞争对手。这一成绩证明了其在视觉理解方面的强大实力,尤其是在处理复杂场景时,其准确性和深度分析能力令人印象深刻。MiniCPM-V4.0的另一大亮点是其专为移动设备进行的高度优化。在最新的iPhone16Pro Max上的实测显示,该模型首次响应延迟不到2秒,解码速度超过17token/秒,并且在运行时能有效控制设备发热,确保了流畅稳定的用户体验。此外,它还能处理高并发请求,非常适合在手机、平板电脑等边缘设备上的实际应用。为了降低开发者的使用门槛,OpenBMB 团队提供了丰富的生态支持。MiniCPM-V4.0兼容llama.cpp、Ollama和vllm_project等主流框架,为开发者提供了灵活多样的部署选择。团队还专门开发了iOS 应用,支持在 iPhone 和 iPad 上直接运行,并发布了详细的Cookbook,提供完整的教程和代码示例。MiniCPM-V4.0的发布,为多模态技术的应用开辟了新天地。其主要应用场景广泛,包括:图像分析与多轮对话:用户可以上传图片,让模型进行内容分析,并在此基础上进行连续对话。视频理解:能够分析视频内容,为需要处理视频信息的场景提供解决方案。OCR 与数学推理:模型具备识别图片中文字和解决数学问题的能力,大大提升了其在实际工作和学习中的实用性。MiniCPM-V4.0的开源,不仅展示了国内 AI 团队在轻量级模型研发上的卓越实力,也为全球开发者提供了探索移动端多模态技术的强大工具,为 AI 普惠化迈出了坚实的一步。Github:https://github.com/OpenBMB/MiniCPM-oHugging Face:https://huggingface.co/openbmb/MiniCPM-V-4ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4CookBook:https://github.com/OpenSQZ/MiniCPM-V-CookBook本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20305

面壁智能新一代多模态模型 MiniCPM-V 4.0 开源
2025年8月7日 12:00

面壁智能新一代多模态模型 MiniCPM-V 4.0 开源AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202537魔搭ModelScope社区宣布,面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源。凭借4B参数量,该模型在OpenCompass、OCRBench、MathVista等多个榜单上取得了同级SOTA(State of the Art,即当前最佳)成绩,并且实现了在手机等移动设备上的稳定、流畅运行。同时,官方还开源了推理部署工具MiniCPM-V CookBook,帮助开发者在不同需求、不同场景、不同设备下实现开箱即用的轻量、简易部署。MiniCPM-V4.0的开源,标志着多模态模型在端侧应用领域迈出了重要一步。作为最适合在手机上运行的模型尺寸,MiniCPM-V4.0以4B参数量实现了稳定运行和快速响应,长时间连续使用也不会出现发热或卡顿现象。目前,支持MiniCPM-V4.0本地部署的iOS App已开源,开发者可以在CookBook中下载使用。在性能方面,MiniCPM-V4.0在4B参数量级的多模态能力上达到了同级SOTA级别。在OpenCompass、OCRBench、MathVista、MMVet、MMBench V1.1、MMStar、AI2D、HallusionBench等评测基准测试中,MiniCPM-V4.0的综合性能均为同级最高。特别是在OpenCompass测评中,MiniCPM-V4.0的综合性能超过了Qwen2.5-VL3B模型和InternVL2.54B模型,甚至可比肩GPT-4.1-mini、Claude3.5Sonnet。与上一代MiniCPM-V2.6的8B模型相比,MiniCPM-V4.0在模型参数减半的同时,多模态能力实现了显著提升。MiniCPM-V4.0之所以能在手机、PC等端侧设备上丝滑、流畅地完成实时视频理解、图像理解等任务,除了其出色的效果外,还得益于独特的模型结构设计。该设计实现了同尺寸模型下最快的首响时间与更低的显存占用。经在Apple M4Metal上测试,正常运行MiniCPM-V4.0模型时,显存占用仅为3.33GB,低于Qwen2.5-VL3B、Gemma3-4B等模型。在图片理解测试中,MiniCPM-V4.0借助ANE + Metal辅助加速,首次响应时间大幅缩短,随着输入图片分辨率的提高,首响时间快的优势更为明显。此外,研究团队还利用2张4090GPU对模型并发量、吞吐量进行了测试。实验结果显示,在算力资源可支持的范围内,随着并发量的增加,MiniCPM-V4.0模型的总吞吐量优势更为明显。例如,在256并发用户需求下,MiniCPM-V4.0的吞吐量高达13856tokens/s,远超Qwen2.5-VL的7153tokens/s、Gemma3的7607tokens/s。Github: https://github.com/OpenBMB/MiniCPM-oHugging Face: https://huggingface.co/openbmb/MiniCPM-V-4ModelScope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4CookBook: https://github.com/OpenSQZ/MiniCPM-V-CookBook本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20304

GPT-5有望明天发布,将整合多项OpenAI的最新技术
2025年8月7日 09:00

GPT-5有望明天发布,将整合多项OpenAI的最新技术AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202520.3kOpenAI 在社交平台 X 上宣布,将于北京时间周五凌晨1点举行一场备受期待的直播活动。此次活动引起了广泛关注,许多科技爱好者纷纷猜测,这将是新一代强大 AI 模型 GPT-5的首秀。OpenAI 在公告中巧妙地将 LIVESTREAM 写作 LIVE5TREAM,让人们更加期待这一盛会。据悉,GPT-5将整合多项 OpenAI 的最新技术,包括 o3,极大提升其在 ChatGPT 和 API 中的表现。OpenAI CEO 萨姆奥尔特曼曾在今年2月透露,这款模型将为用户带来更为智能的交互体验。最令人兴奋的是,普通用户在标准智能设置下将可以免费使用 GPT-5进行对话,虽然会有一定的滥用阈值限制,但非订阅用户仍可享受到这一前沿科技的魅力。对于 Plus 和 Pro 订阅用户,GPT-5将提供更为强大的功能,包含语音交互、画布工具、搜索以及深度研究等功能。这意味着,付费用户将能够体验到更为全面和高效的 AI 助理。直播活动的即将举行,也让人们对未来的 AI 技术发展充满期待。OpenAI 的创新持续引领着科技潮流,而 GPT-5的发布无疑将再次刷新人们对人工智能的认知。我们将拭目以待这一伟大时刻的到来。本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20294

Cursor1.4正式发布:聚焦异步长程任务,加速大型代码库自动化进程
2025年8月7日 09:00

Cursor1.4正式发布:聚焦异步长程任务,加速大型代码库自动化进程AIbase基地发布于AI新闻资讯·1分钟阅读·Aug 7, 202520.3k2025年8月6日,人工智能代码编辑器Cursor正式发布其1.4版本,进一步巩固其在AI驱动开发工具领域的领先地位。此次更新核心聚焦于增强异步和长程任务处理能力,特别是在大型代码库中的表现,为开发者提供更高效、更智能的编码体验。异步任务处理能力显著提升Cursor1.4版本在异步任务处理上实现了显著突破。官方公告指出,新版本的Agent功能经过大幅优化,能够更高效地应对复杂和长时间运行的任务。开发者现在可以更流畅地通过自然语言指令启动后台Agent,处理从代码生成到错误修复的多样化任务。得益于优化的任务队列管理,开发者能够在Agent执行当前任务的同时,预先安排后续指令,显著提升工作效率。此外,Cursor1.4引入了更强大的后台Agent工具,允许Agent在独立的远程环境中运行。这些Agent能够克隆GitHub仓库并在单独分支上工作,支持无缝的任务交接,开发者可随时接管或审查Agent的进展。这种异步工作模式特别适合需要跨文件或跨模块协调的大型项目。型代码库的精准优化针对大型代码库,Cursor1.4显著提升了代码索引和搜索的准确性。通过引入全新的嵌入模型,Cursor能够更精准地理解项目结构和上下文,从而提供更高质量的代码补全和查询结果。官方数据显示,代码补全的响应时间缩短了约100毫秒,首次令牌生成时间(TTFT)降低了30%,这些改进得益于内存管理系统重构和数据传输路径优化。此外,Cursor1.4新增了对多根工作区的支持,允许开发者同时索引多个代码库。这对于需要在不同项目间切换或处理复杂依赖关系的开发者来说,是一项重大升级。配合增强的语义搜索功能,开发者可以快速检索历史拉取请求(PR)、提交记录或问题,极大地加速了事后分析和问题追踪。从半自动化到全自动化的转型Cursor1.4的发布不仅是技术层面的迭代,更预示着AI编码工具从半自动化向全自动化的战略转型。早期版本的Cursor Agent主要依赖开发者提供详细的指令和监督,而1.4版本的Agent展现出更强的自主性,能够独立分析代码库、制定任务计划并执行复杂修改。这种能力得益于Agent模式对大型语言模型的深度整合,包括对Anthropic模型的优化支持以及即将扩展到其他模型的搜索与替换工具。新版本还引入了针对Jupyter Notebook的支持,Agent现可直接在Notebook中创建和编辑多个单元格,为数据科学和研究任务提供了更灵活的工具。此外,BugBot功能进一步增强,自动审查PR并提供详细的错误反馈,开发者可通过Fix in Cursor功能直接跳转到编辑器修复问题,显著缩短了迭代周期。更高效的协作与上下文管理Cursor1.4进一步优化了与GitHub和Slack的集成,开发者可以通过浏览器或移动设备直接分配任务、审查代码或管理PR。新增的上下文共享功能允许团队成员查看和协作处理Agent的任务进展,增强了团队协作的透明度。此外,Memories功能现已全面可用,AI能够自动记录关键决策和上下文,并在后续会话中复用,减少重复沟通的需要。地址:https://cursor.com/en/changelog本文来自AIbase日报扫码查看欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。由AIbase 日报组创作© 版权所有 AIbase基地 2024, 点击查看来源出处 -

信息源:AIBase 来源:https://www.aibase.com/zh/news/20293