
1. 关键工具:开源视觉语言模型Deepseek-OCr已发布。浓缩的不是本质,而是新闻计算新闻:Deepseek 发布开源视觉语言模型 Deepseek-OCr,拥有 30 亿个参数。它致力于加深对图像和 PDF 文档的理解。该模型采用MIT风格许可,在Huggingface中上线。 Deepseek还发布了相关代码和技术论文《Deepseek-OCC: Contexts of Optical Compression》(Deepseek-OCC: Contexts of Optical Compression)。 Deepseek-OCC的独特之处在于,这种视觉语言模型极大地提高了图像压缩极限,同时仍然保持高质量的OCR识别结果。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩比小于 10 倍)时,OCR 文档的解码模型的解码率可以达到 97%……这使得大规模语言模型(LLM)在历史长上下文公司和记忆记忆等研究领域显示出巨大潜力。 Deepseek-OCC不仅是一个很好的SOTA OCR模型,而且通过使用基于视觉的压缩技术,为长上下文管理提供了新的思路。它可以让人们用更少的tokens来理解图像中的文字(只有直接阅读文字的十分之一)。点评:10倍的压缩率换来97%的准确率,这种“压缩”技术有其用武之地。 2、技术及产品发布:新产品“夏饺子”,大厂商不断涌现 1、新闻:OpenAi 推出适用于 macOS 的桌面 AI 浏览器 Chatgpt Atlas,包含网页浏览、ChatGPT 功能以及可选的“浏览器内存”。 Openai 将 Chatgpt Atlas 宣传为“内置 chatgpt 的浏览器”,提供依赖于 ChatGPT 帐户的第一方浏览器体验。一些评论家认为它比竞争对手的 AI 浏览器 Perplexity Comet 更好,但其他人指出,尽管这个工具有潜力,但它还不是一个可靠的人工智能工具。
点评:Openai 停止开发浏览器,AI 也开始上网。 2. 新闻:Anthropic 推出 Claude Claude Code。这个基于浏览器的界面可用于执行并行编码任务并连接到 GitHub。 Research Preview版本支持隔离沙箱环境、任务导向、自动PR生成等功能。现在可供 Pro 和 Max 订阅者使用。 Anthropic 概述了基于沙箱的安全控制,并共享了安装文档的链接。点评:编写 AI 代码时,不应该消除调试吗? 3.新闻:Openai for Chatgpt推出“公司知识”功能。此功能可帮助用户集中管理公司范围内的信息,例如内部文档、常见问题解答和术语,使 ChATGPT 答案更能反映组织信息源。这项新功能旨在减少定制搜索的复杂性,确保一致性并遵循整个工作区域的答案。并且业务管理员可以控制数据管理和访问权限。锐评:ChatGPT企业版已经小幅上线。 4.新闻:微软扩展了Edge浏览器的Copilot浏览模式,添加了copilot代理操作(例如取消订阅电子邮件或预订酒店),以及可以按主题项目对浏览历史记录进行分组的“旅行”功能。新标签聊天、集成搜索/导航和操作/旅行正在预览中。美国用户现在可以在浏览器一侧打开副驾驶模式。评论:Edge 变身为彻底的网络妈妈。下一步是提醒您穿长裤。 5.新闻:谷歌推出了Gemini开发的AI“vibe-coding”工具。用户只需输入自己的想法即可创建 Web 应用程序。用户直接描述应用程序,AI工具编写完整的应用程序编写代码并在几分钟内进行部署。该工具在 AI Studio 中启动,由 Gemini 2.5 Pro 提供支持。它还具有代码查看、恢复检查点和部署应用程序等功能。芮平:任何软件工厂在AI面前都只是一个把戏。 6、新闻:玉树科技发布新一代仿生人形机器人H2。这款重 70 公斤的机器人拥有 31 个自由度、具有面部特征的仿生头部和许多灵巧的选项,现已上市销售。
点评:马斯克的机器人工程师一定很兴奋,他们压力很大。 7.新闻:腾讯发布混元世界1.1开源世界。它可以根据文本、图像或视频输入快速重建 3D 场景。 1.1 版扩展了输入范围以支持视频和多个图像。点评:腾讯这次成了“速溶茶包”里的元宇宙。 8.新闻:Liquid AI推出轻量级多模态(图像-文本)LFM2-VL-3B模型,专为高效边缘和服务器部署而设计油;该模型速度和质量可调,原生支持512×512图像处理。 LFM2-VL-3B 在小型开源模型中具有竞争力,现已在 Face Huger 中提供。芮成钢点评:在“终端”搞游击战,聚焦错误的竞争。 9.消息:阿里巴巴统一钱文更新了QWEN3系列-VL,增加了小检查点和大检查点,包括QWEN3-VL-2B-INSTRUCT和QWEN3-VL-32B-instruct(包括FP8变体)。芮点评:“模范超市”又上新了,从2B到32B都有选择。 10、新闻:艾伦人工智能研究所(AI2)发布OLMOCR-2-7B-1025-FP8,这是基于QWEN2.5-VL-7B细化的定量OCR模型,适用于处理文档、数学公式、表格和扫描页面。该模型在 Hugging Face 中推出。突发评论:外国人习惯抄中国作业。 11、新闻:百川智能正式发布百川-M2 Plus医疗模型,也是第一个“循证”医学模式。该模型是基于百川今年8月开放的百川-M2推理模型技术的升级。这是百川在医疗AI领域的最新探索。 M2 Plus 的主要亮点是其开创性的六种基于证据的资源 (EAR) 范式。这一创新机制为医学领域长期存在的通用大模型想象难题提供了有效解决方案,让AI不再“闭门造车”,而是有理有据地回答问题。批判评论:“循证”能否控制大规模模型? 12、消息:Pokee AI 发布“深度研究”开源代理 pokeeresearch-7b,拥有 70 亿个参数,基于 QWEN2.5-7B 指令微调,使用 RLAIF 和推理框架来分解、验证和综合多源信息。 Pokee AI 声称在 70 亿个研究代理级别参数上达到了 SOTA 水平。用户可以访问它通过预览页面,现在可以使用拥抱脸部模型。批判性评论:另一个 7B 模型,说 SOTA。 13. 新闻:Krea 开源实时视频模型 Krea Realtime 14b。该模型源自 WAN 2.1 14B,可以以交互速度流式传输和生成长视频,初始帧生成时间约为 1 秒。相关技术博客解释了该模型如何利用“自强迫”技术使扩散模型自回归,从而实现实时长视频生成。 Krea Realtime 14B 现已在 Hugging Face 中提供。点评:1秒开始实时视频生成,AI将成为历史编辑器。 14. 新闻:Lightricks 发布 LTX-2。它是集成到 LTX 套件中的高保真、支持 4K 的 AI 视频引擎,具有同步音频和视频生成以及多种性能模式。 LTX-2 支持端到端创意工作流程,包括故事板、时间线和角色一致性。 LightRicks现提供相关技术技术信息、文档以及 LTX-2 测试的访问权限。评论家:人工智能将很快改变“全自动电影制作人”。 15. 新闻:Hugging Face 为 AI 表单添加视觉功能。此次更新允许许多用户使用开源模型来提取和丰富图像数据,将工作流程从文本领域扩展到视觉领域等。该版本支持视觉任务的快速原型设计,无需通过Python管道。 RUI点评:未来Excel不仅可以拉数据,还可以“拉”图像。 16. 新闻:Browserbase 发布 Director 2.0。它是一款由 Browserbase 和 Stagehand 提供支持的免费应用程序,可自动执行 Web 任务。 Director 2.0专为“计算机操作”任务而设计,可以通过Browserbase部署在云端。 Director 是 Browserbase AI 自动化技术堆栈的一部分,与 Playwright 的 AI 兼容 AI 框架 Stagehand 一起。点评:这对于懒人来说可以说是一个好消息,但也可以说是一个“鱼杀手”。 17. 新闻:三星与 Perplexity AI 合作,推出适用于 2025 年智能电视系列的专用电视应用程序,支持直接在屏幕上进行语音和文本 AI 搜索。用户无需手机即可搜索 mga 航班、食谱或新闻。芮老师点评:电视不仅是用来看的,更是用来思考的。 18. 新闻:Dropbox 扩展了 AI Assistant 和 Search Engine Dash 的可用性。 Dash 连接所有工作应用程序以提高生产力。它现在提供自然语言搜索、人工智能响应和内容组织功能,用户可以通过新应用程序访问这些功能,并与 Dropbox 本身集成。随后的改进包括 Mobius Labs 提供的多模式功能以及通过 MCP 服务器进行的应用内搜索。芮平:在n个应用程序中“找到东西”的焦虑现在需要由第n+1个应用程序来解决? 19.新闻:Openai团队预览了“宠物客串”功能,显示视频模型可以将用户的宠物添加到生成的exalready中。更多使用方式ra 社交即将推出。点评:当导演不是铲屎官的梦想。 3、AI研究资讯:从“上帝视角”看地球,以“实盘”交易股票赚钱 1、新闻:谷歌研究宣布更新并扩大了Google Earth AI的访问范围,包括释放新的想象力和基本人口模型。他们还发布了由 Gemini 提供支持的地理空间推理代理。该代理能够将卫星、人口和环境信号关联起来,以回答复杂的现实问题(例如飓风风险、脆弱社区)。谷歌研究报告称,该智能体在地球观测任务中的表现已经达到了 SOTA 的水平,并且它将通过融合多模型嵌入来改善草裙舞的结果。芮平:这只是AI的“上帝视角”,现实版的“文明”游戏。2、新闻:Deepseek在香港大学AI-Trader项目中击败了GPT、Claude、Gemini等世界领先模型等,成为一个可以在真实的美国股市中实现独立收益的AI交易系统。这标志着人工智能在金融市场应用的重大成功。这意味着,通过Deepseek赚钱的速度是直接购买美国著名股票基金(QQQ)的8倍,是第二大AI模型的4倍。基金经理如何感到尴尬?四、AI商业与政策:疯狂赚钱受资本青睐,吃电遭大众抵制 1、新闻:Meta宣布离职 AI部门员工600人。失踪主要是超级智能实验室的公平目标(初级人工智能研究)。与此同时,Meta 正在加大通用人工智能 (AGI) 研究的招募力度。 Meta首席人工智能官王涛表示,此举是为了创建一个更精简、更敏捷的团队,专注于构建可扩展的模型。 RUI点评:这是为了聚焦“超智能”。 2.新闻:IBM一与GROQ宣布建立合作伙伴关系,共同推动企业级智能化。 IBM 将通过 Watsonx 编排开放其 GroqCloud 智能服务,以实现低延迟代理工作流程。合作计划包括将红帽支持的 VLLM 与 GROQ 的 LPU 架构集成,并在 Groq 云中支持 IBM Granite 模型。批判性评论:老牌巨头与尖端建筑联手。 3.新闻:Openai宣布收购软件应用程序,这是一家由几位苹果高级员工创立的初创公司。该公司致力于为 Mac 创建人工智能驱动的用户界面。作为本次收购的一部分,OpenAI 将把 AI Assistant Sky 创建的软件应用程序与 ChATGPT 进行整合,包括该产品与 macOS 集成的能力及其产品设计理念。同时,整个软件应用团队将加入OpenAI。该交易的具体财务条款并未披露。突然评论:颇有“师夷长技制夷”的味道。 4.消息:通用汽车宣布从2026年开始,谷歌的Gemini AI助手将被集成到汽车中。 Gemini Assistant 可通过 OTA(无线)更新在配备 OnStar 的车型上使用,直接连接到车辆的导航和诊断系统。通用汽车的目标是将其开发为完全定制的通用汽车人工智能界面,以提高驾驶员的安全性和舒适性。 RUI点评:未来,你开车的时候,不仅拥有“onstar”的客服,还有一个“强大”的副驾驶。 5 新闻:AI Stability 与 Electronic Arts 合作开发 Games 游戏工具,将 AI 图像模型和创意 AI 工具引入 EA 的内容流。这标志着AI在企业级创意工具领域持续稳定推进。 RUI点评:未来游戏中的NPC和风景都可以“一键生成”。 6. 新闻:力笔白,原生AI平台内容创作,近日完成1.3亿美元(约合人民币9.2亿元)B轮融资,由红杉中国、华人文化资本和某大型互联网公司战略投资部联合领投。这是今年国内AI应用领域最大规模的公开融资,超过了此前Manus以5亿美元(约合人民币35.6亿元)估值完成的8000万美元(约合人民币5.7亿元)融资纪录。仅2024年一年,李必白就完成了三轮融资,融资总额达数亿元。点评:AI应用赛道终于出现“动物碰金”。 7. 新闻:Netflix 在第三季度财报电话会议上宣布“全面致力于”人工智能开发。首席执行官特德·萨兰多斯强调人工智能在加速脚本和视觉效果 (VFX) 创作方面的积极作用,预计到 2026 年成本将节省 15% 至 20%。 Netflix 看待人工智能作为在饱和市场中获得竞争优势的工具,相信公司可以利用人工智能工具进行内容创作、个人推荐以及劳动效率低下的情况。评论:Netflix 的行动旨在激怒好莱坞联盟。 8. 新闻:据《纽约时报》报道,全球范围内针对人工智能数据中心的斗争正在愈演愈烈。这些数据中心给当地电网和水资源带来巨大压力,墨西哥停电和智利缺水引发反对。智利政府面临着人工智能投资的问题,讨论了对技术中心提供数十亿美元的补贴以支持经济增长,同时面临公众对数据中心占用资源的愤怒。点评:AI数据中心会成为“电老虎”和“水老鼠”吗? 9. 新闻:Meta 与 Blue Owl Capital 组建 270 亿美元合资企业,为 Hyperion AI 数据中心提供资金。 Meta 与 Blue Owl Capital 管理的基金成立合资公司开发路易斯安那州Hyperion数据中心园区,蓝猫持股80%,Meta保留20%。该交易凸显了建设人工智能基础设施所需的大量资金。瑞平:如果你没有足够的钱,你还是可以找人帮忙的。 10.消息:英国人工智能安全研究所(AI Security Institute)发布了临时《高级人工智能安全国际科学报告》。该报告由来自世界各地的 74 名人工智能专家撰写,旨在为即将举行的峰会上的多边政策讨论提供信息。为政策讨论提供信息。本报告总结了当前对通用人工智能和风险管理技术的理解。点评:74位专家就AI危害“请教”,战况浩大。 11.消息:特斯拉正式宣布Cybercab将于2026年第二季度开始量产。公司CEO埃隆·马斯克在财报电话会议上表示:“产能扩张的最大来源将是是 Cybercab,其生产将于明年第二季度开始。这款车经过全面优化和设计,旨在实现完全自动驾驶。实际上它没有方向盘和踏板,真正实现了优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化优化 优化优化优化优化优化优化优化优化优化优化优化优化优化 优化 优化 优化 优化 优化 优化 优化 优化 优化 优化 每英里优化。 》 批判分析:这次又是一个狼来了的故事吗? 5、AI观点与文章:特斯拉前老板给超级智能还n倍的事实泼冷水。 9新闻:特斯拉人工智能与自动驾驶部门(自动驾驶)前负责人Andrej Karpathy近日在接受特斯拉人工智能与自动驾驶部门(自动驾驶)前负责人Andrej Karpathy近日接受人工智能开发者Dwarkesh Patel采访时评论了AI发展的时间表和进展。 硅谷科技播客知名主持人,引发热议。卡帕斯先生表示,人工智能代理大约需要十年时间才能完全达到人类员工的水平。他认为,目前AI智能体缺乏足够的智能、多模态能力、计算机使用能力和记忆力,尚未达到真正实用的水平。有些人认为他拒绝人工智能优化主义者,但他发布了续集)而不是“奇点”:“我认为这就像社会自动化的过程......我觉得很多事情会逐渐变得自动化,而超级智能是这种趋势的外推。”卡帕斯对人工智能发展的推理源于他在自动驾驶汽车开发过程中得到的惨痛教训:人工智能的每一步改进都比前一步更加困难:“这是一个‘九进行曲’的9),每个卡当9(意思是90%、99%、99.9%等。你需要第二个9、第三个9、第四个9、第五个9。”Rui评论道:路上呼吸太多 九个 9。 (辰辰)