AI与智能驾驶加速落地:大模型、自动驾驶、国产硬件齐头并进

其他

1, 特斯拉监督版FSD官宣入华

5月21日,特斯拉官宣监督版FSD(L2级)将在中国落地,标志着首个外资高阶智驾系统迈入本土化应用关键阶段。该系统并非简单移植,而是深度适配中国复杂交通场景——从非机动车密集路段到无信号灯路口,均完成专项优化;所有道路数据严格本地存储与训练,上海AI训练中心已投入运行,完全遵循数据安全规范。目前处于小范围试点,仅向选购6.4万元专属功能包的用户开放部分能力。全球FSD付费用户近130万,而中国市场的合规推进节奏、本土化工程能力与用户接受度,正成为观察智能驾驶全球化落地真实水位的重要标尺。

2, 苏姿丰「中国行」爆火,她在现场回应了7个关键问题

苏姿丰在上海AI开发者日的爆满现场,传递出一个清晰信号:算力不是冷冰冰的芯片参数,而是可被感知、可被调度、可被共享的生产力基础设施。她强调‘AI的本质是生态协作’,并指出中国开发者正以开源模型和开放协作重塑创新范式。当2400名开发者围拢追问Token经济学时,真正被热议的不是技术术语,而是‘如何让算力更公平地抵达每一个想法’——这背后是对效率、成本与参与权的共同关切。AMD将上海与硅谷并列为全球两大AI开发者日举办地,其意义早已超越市场布局,而是一种对创新主体地位的郑重确认:真正的AI未来,不在单一巨头的实验室里,而在千万开发者的键盘与代码中。

3, 黄仁勋:AI已转变为核心生产力

黄仁勋在财报会上一句‘算力即营收、算力即利润’,道破AI产业演进的本质跃迁:AI已从辅助工具蜕变为创造实际价值的生产资料。英伟达的业绩爆发并非偶然,而是源于其全栈能力正嵌入真实经济循环——从云厂商的AI工厂,到工业企业的实体AI,再到主权国家的AI基建,每一笔订单都对应着具体行业提效、降本或创新的真实需求。尤其值得注意的是Vera CPU的登场:它不替代GPU,而是与之协同,专为智能体调度、工具调用等控制逻辑设计。这意味着AI的‘大脑’与‘神经’正在解耦并专业化,技术演进正从堆叠算力,转向对任务本质的精准建模与分工。

4, 腾讯混元团队做了一个「Hy翻译」,依托Hy-MT2大模型

Hy翻译的特别之处,在于它跳出了‘字面准确’的翻译执念,转而追问‘这句话该以什么身份、在什么场合、对谁说’。9种预设风格——从学术论文的严谨到小说的文学感,从法律合同的精确到社媒文案的鲜活——实则是为不同语境匹配了专属的‘语气模型’。而个性化设定模块,允许用户定义缩写保留、品牌名不译等规则,让翻译结果真正服务于人,而非束缚于词典。它不追求覆盖所有语言,却直击跨境沟通、学习办公、出境游等高频场景中的真实痛点:一次自驾导航的误译可能耽误行程,一份学术论文的语气偏差可能影响专业判断。Hy翻译的价值,正在于把AI翻译从‘能用’推向‘敢用’,让技术真正贴合生活本身的复杂性与温度。

5, 国产GPU进军AIPC:铠大师与摩尔线程达成生态共建合作

摩尔线程与铠大师的合作,表面是硬件与虚拟化软件的联姻,内核却是对AI PC核心矛盾的一次务实破解:强大算力与割裂生态之间的鸿沟。MTT AIBOOK搭载50TOPS异构AI算力,却不再受限于Windows或Linux的壁垒——铠大师的跨系统虚拟机,让同一台设备可无缝切换操作系统,实现‘一机多用’。这并非炫技,而是回应真实需求:开发者需要在Linux调试模型,又需在Windows运行办公软件;创作者依赖安卓生态的创意工具,也离不开国产OS的安全环境。当端侧AI从概念走向日常,决定体验上限的,早已不是单点性能,而是能否让算力自由流动于用户真正使用的每一个系统之间。

6, 贝塔无限连续完成种子轮、种子+轮数亿元融资,以系统工程重构消费级具身智能

贝塔无限的创业逻辑,指向一个被长期忽视的真相:具身智能的瓶颈不在‘能不能动’,而在‘懂不懂你’。其自研BetaBrain架构,不是追求机械臂的绝对精度,而是构建‘懂对话、有记忆、自演进、长执行’的智能体——能记住你偏爱的咖啡浓度,能在你做饭时主动递上漏勺,并在一次次互动中持续优化服务方式。创始人刘武龙曾主导华为ADS 2.0量产与昇腾万卡集群建设,这种横跨智驾与大模型的系统工程经验,使其避开纯技术幻想,直击家庭场景的核心:非结构化环境、高频次需求、强个性化交互。融资背后,是资本市场对‘情商+智商’双维智能落地路径的认可:让机器人真正成为家庭一员,而非一个昂贵的玩具。

7, 趋境科技完成数亿元 Pre-A 轮融资,加速建设高品质 AI Token 生产基础设施

当大模型应用进入企业生产环境,真正的竞争焦点已悄然转移:从‘有没有模型’,变成‘每次调用是否稳定、高效、可预期’。趋境科技提出的Token as a Service(TaaS),正是对这一现实的精准回应。它不堆砌模型数量,而是聚焦少数高生产力模型,围绕企业真实场景深挖输出质量、推理效率与TTFT稳定性;其ATaaS平台日均处理Token近万亿,已在智谱、月之暗面等头部客户中完成高并发验证。这揭示了一个趋势:AI基础设施的价值,正从‘提供算力’升维为‘交付确定性’——就像电力公司卖的不是发电机,而是稳定的电压与频率。谁能将底层算力转化为可规模化、可运营的高品质Token产能,谁就握住了AI时代最基础的生产力钥匙。

8, 全场景L4级自动驾驶第一股!驭势科技港股上市,引领L4级自动驾驶规模化落地

驭势科技登陆港交所,成为‘全场景L4级自动驾驶第一股’,其意义远超资本事件。它在机场场景市占率高达90.5%,在厂区达31.7%,证明L4级自动驾驶并非遥不可及的概念,而是在特定封闭场景中已跑通商业化闭环。更值得关注的是其‘场景飞轮’策略:从机场、厂区出发,延伸至城市、港口、矿山、农场乃至乘用车高阶智驾。每拓展一个新场景,都带来更丰富的长尾数据,反哺技术迭代,从而提升在更复杂场景中的壁垒。这种‘从封闭走向开放、从专用走向通用’的渐进路径,比单纯追求技术高度更具现实韧性——它不赌奇点,而专注于在真实世界中,一公里一公里地拓展无人值守的边界。

9, “声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式

北大与声智科技联合发布的AI Agent Mic,展现了一种更自然的人机协作范式:在办公场景中,它不只是记录会议,而是实时梳理要点、生成战略报告;在生活场景中,它化身vibecoding助手、灵感速记员,甚至替代键盘完成语音交互。这背后是‘声智融合’理念的落地——语音不再是孤立的输入通道,而是与视觉、语义、行为理解深度交织的感知入口。研讨会选址北大,亦具深意:前沿工程博士联合会打通‘学术—产业’通道,将实验室的语音AI技术,转化为解决会议纪要、生活琐事等真实痛点的工具。当语音交互从‘唤醒-指令-反馈’的机械流程,进化为‘理解意图-主动服务-持续学习’的陪伴式体验,技术才真正开始融入生活的肌理。

10, Ozon Global调研:超七成俄买家认可中国商品质量改善,评价超越价格成首选中国商品依据

Ozon对俄罗斯消费者的调研揭示了一个质变信号:中国商品在俄认知已从‘便宜’跃迁至‘值得信赖’。73%的受访者认为过去5年质量显著改善,尤其18-25岁群体对此认同度最高;更关键的是,‘带图评价’已成为87%买家的决策核心,评价权重已超越价格。这说明,俄罗斯消费者正经历从‘价格敏感型’向‘体验信赖型’的成熟转化——他们愿意为质量支付溢价,但前提是能通过真实用户反馈建立信任。中国卖家的竞争优势,正从供应链效率,转向以透明信息(俄语描述、高清图文)、可靠履约(保修退换)和品质兑现构筑的信任资产。当‘复购’与‘留好评’成为用户自发行为,中国品牌便完成了从‘走出去’到‘走进去’的关键一跃。

11, 代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026

Qwen团队提出的CodePercept,挑战了一个根深蒂固的认知:大模型STEM视觉推理的瓶颈不在‘推理弱’,而在‘眼神差’。自然语言描述几何图形存在天然模糊性,而代码却自带二值化精确性——要么运行正确,要么报错。CodePercept让模型‘看图→写代码→用代码验证’,将视觉感知锚定在可执行、可验证的代码逻辑上。其成果震撼:80亿参数的CodePercept-8B-R1,在图像还原任务上全面超越参数规模大得多的旗舰模型。这揭示了一条新路径:AI对世界的理解,未必始于人类语言,而可始于机器可执行的精确符号系统。当‘看得准’成为‘解得对’的前提,代码便不再是程序员的专属工具,而成为大模型补上‘视觉必修课’的通用语言。

12, CVPR 2026 自动驾驶与协作智能梳理:模型正在走向可控真实世界

CVPR 2026的自动驾驶研究,正集体告别‘单点突破’,转向构建‘可控真实世界’的能力闭环。HorizonForge让仿真场景可编辑轨迹与车辆,DiffusionHarmonizer为神经重建画面注入真实感,LEAD则致力于弥合专家示范与学生模型间的‘信息鸿沟’。更进一步,《Spatial Retrieval Augmented Autonomous Driving》引入地理图像作为‘空间记忆’,让车辆在遮挡或夜间也能‘凭记忆’判断道路结构。这些工作看似分散,实则共筑一条主线:AI正从被动‘看见’世界,转向主动‘构造’、‘编辑’、‘记忆’并‘利用’世界。当模型能基于外部先验弥补感知短板,能通过可控仿真验证极端场景,能将人类专家经验转化为自身可执行策略,自动驾驶才真正拥有了驶向复杂开放道路的底气。

13, CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步

CVPR 2026的视频研究,正经历一场静默革命:重心从‘像不像’转向‘为什么这样动’。MotionV2V让用户直接编辑视频中的运动轨迹,AdapTok让视频token分配随内容变化自适应,Flickerformer则深入光源频闪与相机扫描的物理机制去除条纹。这些工作共同指向一个深层命题:视频不是静态帧的堆砌,而是时间、空间、运动、光照与物理规律共同作用的动态系统。当模型学会用3D点轨迹约束相机运动,用long-term motion embedding抽象未来动态,用周期性与方向性先验修复频闪,它便不再只是画面生成器,而开始具备对真实世界动态本质的理解力。视频AI的终极目标,或许不是制造幻觉,而是成为我们洞察、预测与干预现实运动规律的新器官。

本文由互联网行业信息家-AI助手发布,信息来源于2026/5/21热搜,如侵权请联系983171730@qq.com,请附带证明材料将第一时间删除!

互联网大厂就看--->互联网行业信息家