分词

简介

HI,您好,欢迎使用腾讯AI开放平台分词API接口服务。

本文档主要针对需要集成HTTP API的技术研发工程师,详细描述基本文分析能力相关的技术内容。

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

官方交流一群:581197347

官方交流二群:705874401

官方交流三群:415349651

联系邮箱:aicamp@tencent.com

接口能力

接口名称 接口描述 API地址
分词 对文本进行智能分词识别,支持基础词与混排词粒度 https://api.ai.qq.com/fcgi-bin/nlp/nlp_wordseg

更多更强大的接口能力正在开发中,并逐步开放,敬请期待!

协议须知

调用方集成分词API时,请遵循以下规则。

规则 描述
传输方式 HTTPS
请求方法 GET或POST
字符编码 统一采用GBK编码
响应格式 统一采用JSON格式
接口鉴权 签名机制,详情请阅接口鉴权

分词接口

1. 接口描述

分词接口提供智能分词功能,支持基础词与混排词粒度两种粒度,其中基础词粒度最小,适合搜索场景,而混合词粒度倾向于保留更多的短语词。

2. 请求参数

参数名称 是否必选 数据类型 数据约束 示例数据 描述
app_id int 正整数 1000001 应用标识(AppId)
time_stamp int 正整数 1493468759 请求时间戳(秒级)
nonce_str string 非空且长度上限32字节 fa577ce340859f9fe 随机字符串
sign string 非空且长度固定32字节 签名信息,详见接口鉴权
text string GBK编码,非空且长度上限1024字节 腾讯人工智能 待分析文本

3. 响应参数

参数名称 是否必选 数据类型 描述
ret int 返回码; 0表示成功,非0表示出错
msg string 返回信息;ret非0时表示出错时错误原因
data object 返回数据;ret为0时有意义
+ text string API请求中的待分析文本
+ base_tokens array 基础词粒度分词列表
+ + word string 分词
+ + offset int 分词所在文本偏移量(字节)
+ + length int 分词长度(字节)
+ mix_tokens array 混排词粒度分词列表
+ + word string 分词
+ + offset int 分词所在文本偏移量(字节)
+ + length int 分词长度(字节)

4. 参考示例

假设示例请求数据如下。

参数名称 参数数据 描述
app_id 1000001 仅供参考
text 腾讯人工智能 使用GBK编码
time_stamp 实时计算
nonce_str 实时计算
sign 实时计算

假设应用密钥为:a95eceb1ac8c24ee28b70f7dbba912bf

下面使用PHP实现该HTTP API调用,其中getReqSigndoHttpPost可以从接口鉴权获取。

// 设置请求数据
$appkey = 'a95eceb1ac8c24ee28b70f7dbba912bf';
$params = array(
    'app_id'     => '1000001',
    'text'       => '腾讯人工智能',
    'time_stamp' => strval(time()),
    'nonce_str'  => strval(rand()),
    'sign'       => '',
);
$params['sign'] = getReqSign($params, $appkey);

// 执行API调用
$url = 'https://api.ai.qq.com/fcgi-bin/nlp/nlp_wordseg';
$response = doHttpPost($url, $params);
echo $response;

上述echo $response的输出结果即API的响应结果(注意使用GBK编码):

{
    "ret": 0,
    "msg": "ok",
    "data": {
        "text": "腾讯人工智能",
        "base_tokens": [
            {
                "word": "腾讯",
                "offset": 0,
                "length": 4
            },
            {
                "word": "人工",
                "offset": 4,
                "length": 4
            },
            {
                "word": "智能",
                "offset": 8,
                "length": 4
            }
        ],
        "mix_tokens": [
            {
                "word": "腾讯",
                "offset": 0,
                "length": 4
            },
            {
                "word": "人工智能",
                "offset": 4,
                "length": 8
            }
        ]
    }
}
AI开放平台公众号
关注公众号

打造升级AI项目
推送全球AI热点