一个使用图片内容识别的盲人导航示例

1. 上传图片

道路场景图片

注:在智体IB中上传图片。

2. 图片内容识别

prompt提示语

使用JSON描述图片的内容及其所在的坐标区域

注:使用大模型qwen/qwen2.5-vl-32b-instruct:free

输出的JSON结果:

{
  "image_width": 800,
  "image_height": 600,
  "objects": [
    {
      "label": "汽车",
      "bbox_2d": [610, 190, 800, 830],
      "description": "一辆银色的汽车,停在道路右侧"
    },
    {
      "label": "道路",
      "bbox_2d": [0, 330, 800, 920],
      "description": "一条灰色的水泥道路,表面有磨损痕迹"
    },
    {
      "label": "人行道",
      "bbox_2d": [0, 840, 800, 1140],
      "description": "由方形砖块铺成的人行道"
    },
    {
      "label": "树木",
      "bbox_2d": [0, 0, 400, 450],
      "description": "道路左侧的树木,树干粗壮,树叶茂密"
    },
    {
      "label": "建筑物",
      "bbox_2d": [0, 0, 800, 350],
      "description": "道路两侧的建筑物,部分被树木遮挡"
    },
    {
      "label": "垃圾桶",
      "bbox_2d": [0, 290, 120, 420],
      "description": "道路左侧的绿色垃圾桶"
    },
    {
      "label": "灌木丛",
      "bbox_2d": [0, 400, 280, 500],
      "description": "道路左侧的低矮灌木丛"
    },
    {
      "label": "远处车辆",
      "bbox_2d": [430, 280, 530, 310],
      "description": "远处停放的车辆,部分被树木遮挡"
    }
  ]
}

3. 盲人导航建议生成

prompt提示语

这是盲人导航摄像头拍摄后得到的JSON信息,请告诉他应该如何走

注:使用大模型deepseek-chat

盲人导航结果

← 返回案例列表