关于语料编写的几个需求

[复制链接]
王超伟
王超伟   白金会员    发表于 2016-2-29 13:42:38   最新回复:2016-04-06 11:45:41

1. 企业版和运营商版机器人,能实现型号自动转换,而不用手工替换。(比如当前运营商版机器人适配,都是手工将USG的型号替换为对应Eudemon的型号再导入运营商版后台。如果企业版语料发生变化,运营商版也要手动去修改一次,费时费力。我们可以提供USG型号和Eudemon型号的对照表。)

2. 对于答案字数较多的语料,如果只能将部分答案写到P4中,希望将呈现效果更完善一些。如果取消字数限制更好,比如将部分答案折叠起来的效果也可以,这样也不用单独去做P4,现在P4的设置不是那么简单易用。

3. 图文结合的答案,后台配置再简单易用些,最好能通过excel导入。

4. 跑错结果页面,希望可以直接点击测试样例或期望标准问跳转到对应的语料,提高效率。当前只能通过搜索测试样例或标准问去定位。

5. 跑错范围,希望能缩小到实例或更精细的维度,以便于更有针对性的跑错。当前只能选择文件夹的范围。

6. 跑错范围,希望能选择多个文件夹一起跑错,更灵活一些。当前防火墙分工是一个人负责多个文件夹,有时希望能将自己负责的文件夹一次性完成跑错。

7. 导入语料失败报错的日志,扩展问里后台词类不存在的错误提示太不明显(词类字体绿色),尤其是当导入的语料上千条时,更是难找。希望能换一种提示方式。

8. 基础词不知道有什么大作用,目前为止都是干扰,会影响正常分词,能否暂时把基础词都屏蔽掉。

跳转到指定楼层
Taro
Taro   小试牛刀    发表于 2016-3-16 21:04:42

非常感谢这位同事的反馈!
针对第8点,基础词主要是用作分词,虽然目前来说基本是删除的操作,但在后期也有对基础词新增的一些工作。
如后台有词“模拟”一词,但分词结果为“模“、”拟“。这种情况就需要我们新增基础词”模拟“,让分词结果和我们期望的一致。
1-7点已记录。
关于第7点提示的方式,请问有其他的提示形式建议吗?
小韩
小韩   小试牛刀    发表于 2016-3-22 11:11:09

lwlronaldo
lwlronaldo   白金会员    发表于 2016-4-6 11:45:41

语料库的建立需要时间,任重道远。
快速回复 返回顶部