研究
我们正在进行的工作
人机交互不仅仅是一个单一的模型。它是感知、推理、延迟和对话直觉的相互作用。我们正在这些维度上进行努力,使多模态代理不再像软件,而更像是一种存在。
无缝多模态
构建一个统一的运行时环境,在纯语音和完整的多模态交互(视觉、文本和音频)之间流畅过渡,而不会出现会话中断或可感知的模式切换延迟。
延迟与响应速度
降低转录、推理和合成的端到端管道延迟。致力于实现亚感知响应时间,使对话感觉真正同步。
对话动态
通过更好的中断处理、语音端点检测和理解人类对话节奏的轮流发言模型,提高双向对话质量。
专用模型
针对特定交互模态微调前沿模型,同时从头开始开发内部模型——每个模型都针对对话管道的特定部分进行了优化。
对我们的工作或探索合作感兴趣?
[email protected]