语音与多模态 Voice Waves - UI 元知识宝典

21. 🗣️ 语音与多模态 Voice ★★★★☆ App 专属

🌏 Web 网页规范

接口服务: HTML5 Web Speech API (识别度受浏览器限制)
权限控制: 网页端需要显式、高频授予麦克风录音权限
动效渲染: Canvas 音频频谱图、音波起伏可视化特效
辅助能力: 仅限于页面内文本转语音 (TTS) 播报功能

📱 App 移动端规范

接口服务: 平台级原生语音框架 Speech Framework 离线识别
权限控制: 系统级权限配置，允许后台持续语音监听激活
动效渲染: 原生高性能正弦波渲染、锁屏音频波形联动
辅助能力: 深度集成系统级 Siri / Google Assistant 交互指令

多模态交互、按住录音与麦克风声波动画

Voice Inputs & Mic Sound Waves Animation

AI 时代的交互正跨越屏幕走向多模态。语音输入（TTS/ASR）、物理触觉震动与手势的组合构成新型界面。按住录音时，界面绘制的 正弦音频波形 (Sine Wave) 动效，可实时指示声音振幅。

LIVE PLAYGROUND: 按住录音虚拟正弦音频声波动态振荡长按“语音输入”按钮，观察手机声波动画的振幅物理起伏

09:41

📶 🔋

🎤

待命输入...

“请按住录音并说话...”

📋 大模型统一 Prompt (LLM Prompt)

WebXR 与空间计算界面设计

WebXR & Spatial Computing UI

空间计算（如 Apple visionOS、Meta Quest）将 UI 从平面屏幕解放到三维空间。设计核心包括：空间窗口（Window/Volumetric/Immersive 三种呈现模式）、注视+捏合（Gaze + Pinch）替代传统点击、深度层级（近/中/远三层 Z 轴排列防遮挡）、舒适视区（内容限制在 35° 锥形视野内避免颈部疲劳）。Web 端通过 WebXR Device API 可在浏览器中构建空间体验，Three.js 与 A-Frame 是主流渲染框架。

visionOS 原生空间交互与手势系统

visionOS Spatial Interaction & Hand Tracking

visionOS 定义了三种空间体验层级：Windowed（2D 窗口浮动在空间中）、Volumetric（3D 内容占据立体空间，可环绕查看）、Immersive（全屏沉浸，替换环境）。交互依赖 Eye Tracking（注视高亮目标）+ Hand Gesture（捏合选择、旋转缩放、轻扫翻页）。设计规范强调：注视目标最小 28pt、内容避免低于腰部或高于头顶、系统手势区（底部 Dock、顶部控制栏）不可被自定义内容遮挡。