当前的AI对话界面设计存在着一个悖论: 我们试图模仿人类对话, 却忽视了数字媒介的独特可能性. 本文探讨两个核心设计问题: 响应的呈现方式和思考过程的展示策略 # streaming Response ## 当前主流实现的问题 大多数chat应用采用**逐token流式**,这其实是最差的选择: 1. 信息噪音: 人类阅读是按照词组/句子/语段进行的, 不必要的视觉干扰只会损害你的注意力 2. 性能开销: 每个token都触发DOM更新 3. 稳定性: 网络环境要求高 流式输出像一个调速器,控制着用户的阅读节奏—— 你无法快进,只能跟随。这种时间控制是一种微妙的权力行使。人的注意力是有节奏的(Attention Rhythms),而当前的流式设计是反节奏的 作为一个often overthinking的人,我发现逐字流式特别折磨—— 它强加了一种线性时间性,而我的思维是非线性的。 这不只是个人偏好,而是关于认知多样性的设计正义问题。 ## 流式传输想解决的真实问题: - 用户想看到**进度**正在推进 - 看到和预期不符合的内容时, 快速中断 ## 理想的不同场景的粒度 ### 对话界面 #### 代码块和表格: 一次性输出 #### 情绪支持性的文本: token级别的流式传输 ### agent cli 每个action结束后展示结果的概要和完整内容的指针 # Thought process 在推理模型, 比如OpenAI o3系列和claude sonnet thinking模式, 会向用户展示出"思考过程" ## 功能层面的价值 ### 1. 可解释性 (Explainability) - **过程透明化**:让用户理解模型如何从输入到输出的推理链条 - **错误定位**:当输出有问题时,可以追溯到思考过程中的具体环节 - **信任建立**:通过展示reasoning过程减少"黑箱"感知 ### 2. 质量控制机制 - **自我纠错**:模型在思考过程中可能发现并修正初始假设的错误 - **复杂度管理**:将复杂问题分解为可管理的子问题 - **一致性检查**:在推理链中保持逻辑连贯性 ## 改善空间 ### 协作交互式推理, 而非单向展示 通过将thought process从"**表演性的透明展示**"转变为可交互的界面, 优雅地解决了透明与信任的核心矛盾 - 用户的介入和选择**实时影响**推理路径 - 不再是"这是我的思考过程"而是"这是我们的思考过程" - 表演性无从谈起,因为用户是**共同编剧** ### 分层展示与智能摘要机制 默认层:简洁的关键推理步骤 ├── 扩展层:详细的思考过程 └── 专家层:包含不确定性和替代路径 - **自动高亮**:标记出影响最终结论的关键推理节点 - **思维地图**:可视化展示推理的分支和汇合 - **快速导航**:让用户能跳转到感兴趣的特定推理部分 ### 情景感知展示 - **错误场景**:自动展开思考过程帮助debug - **常规查询**:保持简洁 ### 信任度标注 高置信度: 基于明确的逻辑推理 中置信度: 基于模式匹配和经验 探索性: 基于推测和创造性联想 # 交互设计原型示例 *WIP* # 未来的human-AI 协作界面愿景 *WIP*