首页 行业资讯 当前
AI创新|懂你的情感语音模型、会刷视频的视频理解模型、图像生成界六边形战士、软组织手术机器人……
发布时间:2024-11-08

看点概览:

一、清言上线情感语音模型,连AI都懂你

二、会刷视频的AI来了!视频理解模型上线

三、图像生成界也有自己的六边形战士

四、讯飞星火发布11项技术及应用,大模型规模化

五、又一软组织手术机器人获批上市

 

一、清言上线情感语音模型,连AI都懂你

微信图片_20241108160153.png

(来源:智谱清言)

智谱的大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

GLM-4-Voice 具备以下特点:

● 情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。

● 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。

● 随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活的对话互动。

● 多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。

● 结合视频通话,能看也能说:即将上线视频通话功能,打造真正能看又能说的AI助理。

11月8日.gif

(来源:智谱清言)

在使用工具方面,还有一个新的进展:AutoGLM。AutoGLM 的 phone use 能力,只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。

 

内容详情:清言上线情感语音模型GLM-4-Voice,AI 的 phone use 也来了

 

二、会刷视频的AI来了!视频理解模型上线

阶跃星辰.png


(实时监控,还能自动识别异常情况,比如设备故障、安全隐患等,实现智能巡检。图源:阶跃星辰)


阶跃星辰Step 系列大模型又迎新——视频理解模型 step-1.5v-turbostep-1.5v-turbo 基本素质到位,具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境。此外,它还能够「读懂空气」,理解视频的整体氛围和人物情绪。最重要的是,它能「听懂人话」,具备突出的指令跟随能力,维持稳定的格式化输出。因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务,如视频 Caption、内容理解、视频问答等。

 

内容详情:会刷视频的AI来了!视频理解模型step-1.5v-turbo上线开放平台


三、图像生成界也有自己的六边形战士

近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen可以处理经典的计算机视觉任务,将其转换为图像生成任务。

 

OmniGen 集多项能力于一体,包括但不限于:

● 文本到图像生成 (Text to Image Generation)

智源1.jpg

(图源:智源研究院)

● 指代表达生成 (Referring Expression Generation)

输入具有单个对象的图像,理解并遵循指令,输出基于该对象的新图像。

智源2.png

(图源:智源研究院)

● 通用图像条件生成 (General Image Conditional Generation)

直接输入原图,输入指令“Following the human pose(or depth mapping) of this image, generate a new image:...”,就可根据输入图像的人体姿态或深度图关系生成新图像。

智源3.png

(图源:智源研究院)

● 图像编辑 (Image Edit)

可以在一次运行中同时执行多条编辑指令

智源4.png

(图源:智源研究院)

● 经典计算机视觉任务:图像去噪、边缘检测、姿态估计等

要求模型删除图中能装水的物品,则模型能够理解和推断出指令涉及的图中物体并删除。

智源5.png

(图源:智源研究院)

● 一定的上下文学习能力 (In-context Learning)

输入一个分割皇后象棋的输入-输出配对样例 (Example),模型能识别并分割新输入图像中对应的物体

智源6.png

(图源:智源研究院)

内容详情:图像生成新范式:智源推出全能视觉生成模型 OmniGen


 

四、讯飞星火发布11项技术及应用,大模型规模化

10月24日,科大讯飞发布讯飞星火4.0 Turbo,以及10项基于讯飞星火底座能力的产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。


星火Turbo.jpg  AIUI.jpg


星火大模型.jpg  医学助手.jpg


星火汽车.jpg  教育助手.jpg


智慧黑板.jpg  法律助手.jpg


(图源:科大讯飞)

内容详情:讯飞星火4.0 Turbo发布,首发11项技术及应用,引领大模型规模化落地


 

五、又一软组织手术机器人获批上市

手术机器人.png


(图源:MedRobot)

2024年10月28日,瑞士医疗器械公司Distalmotion宣布,其软组织手术机器人Dexter获FDA批准上市,用于治疗成人腹股沟疝修补手术。

 

产品构成

● 无菌控制台

无菌控制台.jpg

● 模块化台车

模块化台车.jpg


● 内窥镜控制臂

内窥镜控制臂.jpg


● 全腕式一次性仪器

全腕式.png


内容详情:获批FDA!又一软组织手术机器人


AI 创新|分享人工智能领域的技术革新和创新应用的新动态,与读者共同关注AI领域的创新思维与实践。


AI四连画

AI图.png

心软的神未出现,心动的鬼已出现。万圣节到了,希望老板不要让我加班,因为我要出去鬼混。

(图源:即梦AI生成)



【上一篇】AI创新|可清洁可检测的光伏板清洁机器人、最懂金融投资和科研学术的AI搜索、经口手术机器人成功完成喉部手术……
【下一篇】加州大学推出新型无源RFID传感器,并在杭州进行了展示
相关文章
粤ICP备05006090号-11 版权所有@IOTE 物联网展始于2009 | 深圳市物联传媒有限公司