研究

我们正在进行的工作

人机交互不仅仅是一个单一的模型。它是感知、推理、延迟和对话直觉的相互作用。我们正在这些维度上进行努力，使多模态代理不再像软件，而更像是一种存在。

构建一个统一的运行时环境，在纯语音和完整的多模态交互（视觉、文本和音频）之间流畅过渡，而不会出现会话中断或可感知的模式切换延迟。

降低转录、推理和合成的端到端管道延迟。致力于实现亚感知响应时间，使对话感觉真正同步。

通过更好的中断处理、语音端点检测和理解人类对话节奏的轮流发言模型，提高双向对话质量。

针对特定交互模态微调前沿模型，同时从头开始开发内部模型——每个模型都针对对话管道的特定部分进行了优化。

对我们的工作或探索合作感兴趣？

我们正在进行的工作我们正在进行的工作