看点概览:
一、清言上线情感语音模型,连AI都懂你
二、会刷视频的AI来了!视频理解模型上线
三、图像生成界也有自己的六边形战士
四、讯飞星火发布11项技术及应用,大模型规模化
五、又一软组织手术机器人获批上市
一、清言上线情感语音模型,连AI都懂你
(来源:智谱清言)
智谱的大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。
GLM-4-Voice 具备以下特点:
● 情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。
● 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。
● 随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活的对话互动。
● 多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
● 结合视频通话,能看也能说:即将上线视频通话功能,打造真正能看又能说的AI助理。
(来源:智谱清言)
在使用工具方面,还有一个新的进展:AutoGLM。AutoGLM 的 phone use 能力,只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
内容详情:清言上线情感语音模型GLM-4-Voice,AI 的 phone use 也来了
二、会刷视频的AI来了!视频理解模型上线
(实时监控,还能自动识别异常情况,比如设备故障、安全隐患等,实现智能巡检。图源:阶跃星辰)
阶跃星辰Step 系列大模型又迎新——视频理解模型 step-1.5v-turbo,step-1.5v-turbo 基本素质到位,具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境。此外,它还能够「读懂空气」,理解视频的整体氛围和人物情绪。最重要的是,它能「听懂人话」,具备突出的指令跟随能力,维持稳定的格式化输出。因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务,如视频 Caption、内容理解、视频问答等。
内容详情:会刷视频的AI来了!视频理解模型step-1.5v-turbo上线开放平台
三、图像生成界也有自己的六边形战士
近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen可以处理经典的计算机视觉任务,将其转换为图像生成任务。
OmniGen 集多项能力于一体,包括但不限于:
● 文本到图像生成 (Text to Image Generation)
(图源:智源研究院)
● 指代表达生成 (Referring Expression Generation)
输入具有单个对象的图像,理解并遵循指令,输出基于该对象的新图像。
(图源:智源研究院)
● 通用图像条件生成 (General Image Conditional Generation)
直接输入原图,输入指令“Following the human pose(or depth mapping) of this image, generate a new image:...”,就可根据输入图像的人体姿态或深度图关系生成新图像。
(图源:智源研究院)
● 图像编辑 (Image Edit)
可以在一次运行中同时执行多条编辑指令
(图源:智源研究院)
● 经典计算机视觉任务:图像去噪、边缘检测、姿态估计等
要求模型删除图中能装水的物品,则模型能够理解和推断出指令涉及的图中物体并删除。
(图源:智源研究院)
● 一定的上下文学习能力 (In-context Learning)
输入一个分割皇后象棋的输入-输出配对样例 (Example),模型能识别并分割新输入图像中对应的物体
(图源:智源研究院)
内容详情:图像生成新范式:智源推出全能视觉生成模型 OmniGen
四、讯飞星火发布11项技术及应用,大模型规模化
10月24日,科大讯飞发布讯飞星火4.0 Turbo,以及10项基于讯飞星火底座能力的产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。
(图源:科大讯飞)
内容详情:讯飞星火4.0 Turbo发布,首发11项技术及应用,引领大模型规模化落地
五、又一软组织手术机器人获批上市
(图源:MedRobot)
2024年10月28日,瑞士医疗器械公司Distalmotion宣布,其软组织手术机器人Dexter获FDA批准上市,用于治疗成人腹股沟疝修补手术。
产品构成
● 无菌控制台
● 模块化台车
● 内窥镜控制臂
● 全腕式一次性仪器
内容详情:获批FDA!又一软组织手术机器人
AI 创新|分享人工智能领域的技术革新和创新应用的新动态,与读者共同关注AI领域的创新思维与实践。
AI四连画
心软的神未出现,心动的鬼已出现。万圣节到了,希望老板不要让我加班,因为我要出去鬼混。
(图源:即梦AI生成)