看图说话

简介

HI,您好,欢迎使用腾讯AI开放平台看图说话API接口服务。

本文档主要针对需要集成HTTP API的技术研发工程师,详细描述看图说话能力相关的技术内容。

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

官方交流一群:581197347

官方交流二群:705874401

官方交流三群:415349651

联系邮箱:aicamp@tencent.com

接口能力

接口名称 接口描述 API地址
看图说话 用一句话描述图片 https://api.ai.qq.com/fcgi-bin/vision/vision_imgtotext

更多更强大的接口能力正在开发中,并逐步开放,敬请期待!

协议须知

调用方集成看图说话API时,请遵循以下规则。

规则 描述
传输方式 HTTPS
请求方法 POST
字符编码 统一采用UTF-8编码
响应格式 统一采用JSON格式
接口鉴权 签名机制,详情请阅接口鉴权
图片格式 支持jpg、png、bmp

看图说话接口

1. 接口描述

用一句话文字描述图片。

2. 请求参数

参数名称 是否必选 数据类型 数据约束 示例数据 描述
app_id int 正整数 1000001 应用标识(AppId)
time_stamp int 正整数 1493468759 请求时间戳(秒级)
nonce_str string 非空且长度上限32字节 fa577ce340859f9fe 随机字符串
sign string 非空且长度固定32字节 签名信息,详见接口鉴权
image string 原始图片的base64编码数据(原图大小上限1MB) ... 待识别图片
session_id string 尽可能唯一,长度上限64字节 1509333186 一次请求ID

3. 响应参数

参数名称 是否必选 数据类型 描述
ret int 返回码; 0表示成功,非0表示出错
msg string 返回信息;ret非0时表示出错时错误原因
data object 返回数据;ret为0时有意义
+ text string 描述图片的一句话文字

4. 请求限制

单用户单接口的QPS(每秒请求次数)上限如下,如需更多请联系QQ客服反馈。

未认证用户 个人认证用户 企业认证用户
1 2 10

5. 参考示例

假设示例请求数据如下。

参数名称 参数数据 描述
app_id 1000001 仅供参考
image 实时计算base64
session_id 1509333186 仅供参考
time_stamp 实时计算
nonce_str 实时计算
sign 实时计算

假设应用密钥为:a95eceb1ac8c24ee28b70f7dbba912bf,示例图片文件存储路径为:/path/to/image

下面使用PHP实现该HTTP API调用,其中getReqSigndoHttpPost可以从接口鉴权获取。

// 图片base64编码
$path   = '/path/to/image';
$data   = file_get_contents($path);
$base64 = base64_encode($data);

// 设置请求数据
$appkey = 'a95eceb1ac8c24ee28b70f7dbba912bf';
$params = array(
    'app_id'     => '1000001',
    'image'      => $base64,
    'session_id' => '1509333186',
    'time_stamp' => strval(time()),
    'nonce_str'  => strval(rand()),
    'sign'       => '',
);
$params['sign'] = getReqSign($params, $appkey);

// 执行API调用
$url = 'https://api.ai.qq.com/fcgi-bin/vision/vision_imgtotext';
$response = doHttpPost($url, $params);
echo $response;

上述echo $response的输出结果即API的响应结果(注意使用UTF-8编码):

{
    "ret": 0,
    "msg": "ok",
    "data": {
        "text": "图像描述信息",
    }
}
AI开放平台公众号
关注公众号

打造升级AI项目
推送全球AI热点