21. 🗣️ 语音与多模态 Voice ★★★★☆ App 专属
🌏 Web 网页规范
- 接口服务: HTML5 Web Speech API (识别度受浏览器限制)
- 权限控制: 网页端需要显式、高频授予麦克风录音权限
- 动效渲染: Canvas 音频频谱图、音波起伏可视化特效
- 辅助能力: 仅限于页面内文本转语音 (TTS) 播报功能
📱 App 移动端规范
- 接口服务: 平台级原生语音框架 Speech Framework 离线识别
- 权限控制: 系统级权限配置,允许后台持续语音监听激活
- 动效渲染: 原生高性能正弦波渲染、锁屏音频波形联动
- 辅助能力: 深度集成系统级 Siri / Google Assistant 交互指令
AI 时代的交互正跨越屏幕走向多模态。语音输入(TTS/ASR)、物理触觉震动与手势的组合构成新型界面。按住录音时,界面绘制的 正弦音频波形 (Sine Wave) 动效,可实时指示声音振幅。
LIVE PLAYGROUND: 按住录音虚拟正弦音频声波动态振荡
长按“语音输入”按钮,观察手机声波动画的振幅物理起伏
🎤
待命输入...
“请按住录音并说话...”
📋 大模型统一 Prompt (LLM Prompt)
空间计算(如 Apple visionOS、Meta Quest)将 UI 从平面屏幕解放到三维空间。设计核心包括:空间窗口(Window/Volumetric/Immersive 三种呈现模式)、注视+捏合(Gaze + Pinch)替代传统点击、深度层级(近/中/远三层 Z 轴排列防遮挡)、舒适视区(内容限制在 35° 锥形视野内避免颈部疲劳)。Web 端通过 WebXR Device API 可在浏览器中构建空间体验,Three.js 与 A-Frame 是主流渲染框架。
visionOS 定义了三种空间体验层级:Windowed(2D 窗口浮动在空间中)、Volumetric(3D 内容占据立体空间,可环绕查看)、Immersive(全屏沉浸,替换环境)。交互依赖 Eye Tracking(注视高亮目标)+ Hand Gesture(捏合选择、旋转缩放、轻扫翻页)。设计规范强调:注视目标最小 28pt、内容避免低于腰部或高于头顶、系统手势区(底部 Dock、顶部控制栏)不可被自定义内容遮挡。