AI创新｜中式“文生视频”AI、可“拍照问”的大模型、5秒平面变立体、AI汽车……

首页行业资讯当前

发布时间:2024-09-24

看点概览：

一、通义万相AI生视频

二、领先的InnoPPE 智能工装辨识解决方案

三、跃问更聪明了，所见皆可“拍照问”

四、平面变立体，仅需5秒

五、全球首款AI汽车亮相

一、通义万相AI生视频

9月24日.gif

（图源：微信公众号@阿里巴巴）

通义万相发布了自研AI视频生成模型，首批上线文生视频、图生视频功能。通义APP端完全免费，用户每天不限次使用。在文生视频功能中，输入任意中英文多语言prompt（提示词），就能生成一段高清、逼真的视频。

作为一款“最听话”的Al生视频模型，通义万相具备复杂语义理解和概念组合生成能力，将文字创意精准呈现。并且针对中式元素的概念理解与生成表现力做了特别优化，国风视频内容轻松创作。针对运动生成和物理模拟等难点，万相实现了大幅度主体运动和运镜控制，从而还原真实世界的物理规律。对于灵感匮乏的朋友，在文生视频界面点击“灵感扩写”，可将简单提示词自动“扩写”成忠于原意的长提示词，大幅度提升生成效果。图生视频功能里，支持将任意图片转化为动态视频，按照上传的图像比例或预设比例进行生成，同时可以通过提示词来控制视频运动。生成除了画面，还有不可或缺的声音。万相可生成与视觉内容高度匹配的声音特效，实现音画同步，增强视听一体的沉浸感。

内容详情：通义万相AI生视频，来啦

二、领先的InnoPPE 智能工装辨识解决方案

个人防护设备应用方案.png

（图源：微信公众号@百度AI）

宜鼎国际将自身的 AI 平台结合飞桨低代码开发工具 PaddleX 中的通用目标检测模型产线，推出领先的个人防护设备 Personal Protect Equipment（PPE）应用方案，PPE 检测是一种利用摄像机和深度学习算法自动识别和警告个人防护设备违规行为的技术。

InnoPPE 智能工装辨识解决方案是一种基于人工智能技术的智能识别系统，基于百度飞桨 PaddleX 开源高性能算法二次精调，可从现有架构直接整合提升视频分析能力。该解决方案旨在帮助企业管理人员快速准确地识别员工穿戴的个人防护装备（PPE）工装，确保员工的安全和健康。该解决方案主要包括以下几个核心功能：目标检测模型的训练部署、预警功能、事件记录，应用于医疗、化学工业、建筑、金属加工。

内容详情：宜鼎国际整合PaddleX超轻量实时目标检测模型，共建“AI+智能存储”创新应用

三、跃问更聪明了，所见皆可“拍照问”

拍照问(1).jpg

（图源：微信公众号@阶跃星辰）

跃问接入了 Step-2 万亿参数 MoE 语言大模型，相比 Step-1 千亿参数语言大模型，Step-2 的综合能力提升了近50%，无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。除了理科能力，Step-2 在内容创作和讲故事上的能力也有令人惊喜的进展。你可以尝试让它创作诗歌、散文和小说。

最近，跃问上线了一个有趣又实用的新功能——“拍照问”。简单说，无论你看见了什么，只要头脑中涌现出一丝好奇的小火苗，打开“拍照问”咔嚓一下，跃问就能分析并理解你上传的图片，帮你完成信息搜索并直接给到解决方案。比如：路边那株奇奇怪怪的植物到底是什么？我家狗这眼神是几个意思？隔壁班 Crush 的 MBTI 可能是什么？这款老版空调遥控器装电池的地方到底在哪里？

内容详情：跃问更聪明了：万亿大模型加持，所见皆可「拍照问」

四、平面变立体，仅需5秒

（图源：微信公众号@书生Intern）

近日，由上海人工智能实验室（上海AI实验室）与南洋理工大学联合推出三维物体生成大模型书生·物华2.0（3DTopia 2.0），基于语言、图像等多模态输入，五秒内即可实现三维物体高效生成。相较于上一代的“两段式”生成策略，书生·物华2.0采用全新的三维扩散大模型直出技术，实现三维物体“秒级”生成。

在“平面转三维”的能力基础上，由书生·物华2.0生成的三维物体更接近真实的物理材质感，支持直接应用于游戏引擎及工业设计软件，同时，得益于“一键生成”的三维建模方式，书生·物华2.0将助推AIGC技术在游戏、影视、建筑、设计等行业的落地应用，助力从业者显著提升创作自由度与效率。得益于“真实感”的提升，在应对工业应用场景的重打光、重渲染等具体需求中，书生·物华2.0体现出极高的灵活性和适应性，同时可根据特定应用要求对三维物体进行编辑和替换，为用户带来全新的创作自由度和效率。

内容详情：平面变立体，仅需5秒，书生·物华2.0再降数字资产创作门槛

小鹏汽车.jpg

图源：微信公众号@小鹏汽车

小鹏P7+定位为全球首款AI汽车，在2024云栖大会首次对外亮相，引起广泛关注和热议。小鹏P7+全系将首发小鹏全新一代AI鹰眼视觉方案，是行业首个单个像素Lofic架构，在面对诸如明暗光替换、强逆光、弱光等环境下，能够更快的适应变化，同时相比起传统摄像头，具有更准，更清，更远的信息采集能力。全新智驾方案，不受城市、路线、路况的限制，具备“门到门”以及“车位到车位”的功能，实现全国都能用，全国都好开。

在AI智舱方面，小鹏P7+将搭载行业首个全面应用AI技术的车载系统——AI天玑系统。该系统借助车外摄像头+雷达所感知的信息，AI天玑系统可进行主动思考推理，根据乘员的信息，实现自主功能的开启，诸如空调或者座椅等；甚至可以根据车主及乘客的不同场景，主动为用户恢复座椅、调节按摩、开启护航等功能。

内容详情：何小鹏开P7+空降云栖大会，开启AI汽车时代

AI 创新｜分享人工智能领域的技术革新和创新应用的新动态，与读者共同关注AI领域的创新思维与实践。

【上一篇】王来春前瞻策略再现！立讯精密拟41亿收购汽车线束巨头

【下一篇】看不见的“眼睛”，机器视觉的多领域突破，附行业政策汇总及解读