注:在智体IB中上传图片。
使用JSON描述图片的内容及其所在的坐标区域
注:使用大模型qwen/qwen2.5-vl-32b-instruct:free
{
"image_width": 800,
"image_height": 600,
"objects": [
{
"label": "汽车",
"bbox_2d": [610, 190, 800, 830],
"description": "一辆银色的汽车,停在道路右侧"
},
{
"label": "道路",
"bbox_2d": [0, 330, 800, 920],
"description": "一条灰色的水泥道路,表面有磨损痕迹"
},
{
"label": "人行道",
"bbox_2d": [0, 840, 800, 1140],
"description": "由方形砖块铺成的人行道"
},
{
"label": "树木",
"bbox_2d": [0, 0, 400, 450],
"description": "道路左侧的树木,树干粗壮,树叶茂密"
},
{
"label": "建筑物",
"bbox_2d": [0, 0, 800, 350],
"description": "道路两侧的建筑物,部分被树木遮挡"
},
{
"label": "垃圾桶",
"bbox_2d": [0, 290, 120, 420],
"description": "道路左侧的绿色垃圾桶"
},
{
"label": "灌木丛",
"bbox_2d": [0, 400, 280, 500],
"description": "道路左侧的低矮灌木丛"
},
{
"label": "远处车辆",
"bbox_2d": [430, 280, 530, 310],
"description": "远处停放的车辆,部分被树木遮挡"
}
]
}
这是盲人导航摄像头拍摄后得到的JSON信息,请告诉他应该如何走
注:使用大模型deepseek-chat