研究人员开发了 VisionAId,这是一款安卓应用程序,旨在通过将标准智能手机转变为实时视觉助手来帮助视障人士。该系统利用六个设备端深度学习模型执行深度估计、物体和人脸识别以及定制的纸币检测器等任务,所有这些都通过 ONNX Runtime 离线运行。它还包含一个可选的云端大型语言模型 Google Gemini Flash,用于增强场景描述和物体标记。一个关键功能是其少样本学习能力,用于个性化物体检索,允许用户拍摄特定物品的照片,以便日后通过多模态反馈进行定位指导。 AI
影响 该应用程序展示了设备端 AI 为视障人士提供实时援助的潜力,增强了个人自主性。
排序理由 该集群描述了一篇研究论文,其中详细介绍了一个新应用程序及其技术规格。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →