登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
NLP 应用中数据治理遇到的困难及解决方案-彭嘉
信息技术
2022-11-02
ArchSummit北京2022|全球架构师峰会
邵***
AI智能总结
查看更多
NLP应用中的数据治理挑战与解决方案
1. 小爱智能助手介绍
语义标签结构
:
Domain(垂直领域)
:天气、音乐等。
Intent(意图)
:查询温度、查询空气质量、按歌手查询等。
Named Entity(命名实体)
:时间、地点、歌手类别等。
语义理解流程
:
内容:音乐
按歌手查询:三级意图准确率/召回率、二级准确率/召回率、一级准确率/召回率
Query意图预判
垂域意图解析
意图分类
垂域结果排序
2. AI算法评估遇到的数据问题
上线前评测
:
如何确定合适的训练/评测集规模?
离线算法指标好,是否意味着线上表现也一定好?
模型指标波动如何解释?
3. 线下线上评价结果不一致的解决方案
表现不一致的因素
:
训练和评测使用的历史数据
测试环境难以评估系统间的相互影响
线下和线上评价体系不同
标注结果逐渐偏离用户认知
解决方案
:
深入了解用户,从新视角重新审视数据
承认随机性的普遍存在
反思指标体系,警惕指标与用户问题脱节
实现全链路自动化评测,包括语音交互的端到端评测
4. 多次评测指标波动问题解决方案
影响评测指标的因素
:
模型的最终用户仅关注最后一个阶段
测试过程中的三个核心因素:语义标签、评测环境、数据质量
解决方法
:
定义正交的分类标签
提前定义标注原则以避免标签冲突
计算指标误差率,减少因样本大小引起的误差
5. 新探索与总结
探索方向
:
使用半监督学习解决新业务标注数据少的问题
总结
:
确保算法研发的努力不付之东流
保证分类标签符合质量需求
保证指标体系符合用户感知
保证数据符合业务实际状况
确保模型策略的迭代能够真正推动业务发展
你可能感兴趣
企业在ESG表现提升中遇到的问题和困难
-
2024-10-16
2025年01月03日更新-【邹国胜】2024年AI在数据治理中的应用报告
综合
QEcon
2024-07-25
竹间智能前微软工程师–NLP语言模型与ChatGPT相关应用及发展–20230327
未知机构
2023-03-28
环保行业垃圾分类服务龙头伏泰科技的解决方案:当垃圾分类遇到物联网,产业加速与升级
公用事业
国泰君安
2019-06-29
彭飞 - App工厂架构设计及在58集团应用
电子设备
ArchSummit北京2022|全球架构师峰会
2022-11-02