盲人导航图片识别案例

1. 上传图片

注：在智体IB中上传图片。

2. 图片内容识别

prompt提示语

使用JSON描述图片的内容及其所在的坐标区域

注：使用大模型qwen/qwen2.5-vl-32b-instruct:free

输出的JSON结果：

{
  "image_width": 800,
  "image_height": 600,
  "objects": [
    {
      "label": "汽车",
      "bbox_2d": [610, 190, 800, 830],
      "description": "一辆银色的汽车，停在道路右侧"
    },
    {
      "label": "道路",
      "bbox_2d": [0, 330, 800, 920],
      "description": "一条灰色的水泥道路，表面有磨损痕迹"
    },
    {
      "label": "人行道",
      "bbox_2d": [0, 840, 800, 1140],
      "description": "由方形砖块铺成的人行道"
    },
    {
      "label": "树木",
      "bbox_2d": [0, 0, 400, 450],
      "description": "道路左侧的树木，树干粗壮，树叶茂密"
    },
    {
      "label": "建筑物",
      "bbox_2d": [0, 0, 800, 350],
      "description": "道路两侧的建筑物，部分被树木遮挡"
    },
    {
      "label": "垃圾桶",
      "bbox_2d": [0, 290, 120, 420],
      "description": "道路左侧的绿色垃圾桶"
    },
    {
      "label": "灌木丛",
      "bbox_2d": [0, 400, 280, 500],
      "description": "道路左侧的低矮灌木丛"
    },
    {
      "label": "远处车辆",
      "bbox_2d": [430, 280, 530, 310],
      "description": "远处停放的车辆，部分被树木遮挡"
    }
  ]
}

3. 盲人导航建议生成

prompt提示语

这是盲人导航摄像头拍摄后得到的JSON信息，请告诉他应该如何走

注：使用大模型deepseek-chat

盲人导航结果

根据提供的JSON信息，以下是针对盲人的导航建议（以第一人称语音提示形式描述）：

当前环境概述

"您正位于一条灰色水泥道路上，道路表面有磨损痕迹。左侧有建筑物、树木和灌木丛，右侧有一辆银色汽车停靠。"

前进方向建议

"请沿道路中央直行，注意以下细节：

您左手边约2米处有一个绿色垃圾桶，继续前行会经过低矮灌木丛。

右手边约3米外停着一辆银色汽车，请保持适当距离。"

障碍物提示

"前方道路左侧有茂密树木，树干粗壮，枝叶可能延伸到道路上方；右侧建筑物和车辆未占用行走空间，道路净宽约4米。"

路径规划

"建议行走路线：

① 现在面向正前方，道路平坦无障碍；

② 约10步后会经过左侧灌木丛（可通过枝叶摩擦声定位）；

③ 20步后右侧停车区域结束，道路会完全畅通。"

特别注意事项

人行道位于您正前方约5米处（需下行30厘米台阶，由方形砖块铺成）

远处有车辆停放，但不会影响当前路径

树木阴影可能造成地面温度变化，可通过触觉手杖感知"

需要更详细的实时导航时，建议：

用手杖探测左侧路缘（灌木丛/垃圾桶作为参照物）

右侧汽车引擎盖可能残留热量，可作为热信号参考

前方道路尽头的人行道有明显材质变化，注意台阶落差

（注：以上距离估算基于800像素图像宽度，实际距离需结合摄像头焦距参数换算）

一个使用图片内容识别的盲人导航示例

1. 上传图片

2. 图片内容识别

prompt提示语

输出的JSON结果：

3. 盲人导航建议生成

prompt提示语

盲人导航结果

当前环境概述

前进方向建议

障碍物提示

路径规划

特别注意事项

需要更详细的实时导航时，建议：