数据管理与数据价值
数据管理
- 初始模型:从基础模型到模型迭代的过程。
- 数据刻画:标签体系构建,包括多级标签、标签互斥分析等,以提高模型识别和迭代效率。
- 数据收集:通过定向爬虫和样本挖掘等方式收集数据,并结合质检反馈和客户反馈提高标注样本质量。
- 数据生成与拓展:通过检测、分类、特征匹配和数据增广模块实现数据的生成与拓展。
- 数据标注:细化标注文档、结合数据选择与清洗提高标注命中率,进行交叉验证和标注质检。
- 数据增强:采用算术、混合、模糊、颜色、对比度、翻转、尺寸和噪声等多种增强方法。
- 数据选择与清洗:利用主动学习、异常检测等方法进行数据选择与清洗。
- 数据分析:分析模型的整体精度、召回率等指标,以及特定场景和历史反馈情况。
数据价值
- 自监督:构建更高基础模型的相关性和任务相关性。
- 半监督:充分利用无标签数据的价值。
- 弱监督:发掘更细粒度的内容信息。
- 无监督、开放域、小样本:应用于未知对象检测和已知标签的开放域检测。
技术方案与数据管理
技术方案
- 算法创新:在内容安全领域取得了多项重要成果,如在第三届中国人工智能大赛中获得多项最高级A级证书。
应用场景
- 内容安全:面对极端长尾分布、细粒度和难例挖掘等问题,能够有效识别并处理少量有害数据,同时应对高频率的黑灰产对抗。
总结
网易易盾在内容风控场景下,通过Data-Centric AI方法,实现了高效的数据管理和价值挖掘。其技术方案在内容安全领域表现出色,特别是在极端长尾分布和细粒度识别方面具有显著优势。通过自监督、半监督、弱监督和无监督等多种策略,进一步提升了模型的泛化能力和适应性。