登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
1-2 推荐算法中的特征工程 - 杨旭东 阿里
信息技术
2022-06-13
DataFunSummit2022:数据科学在线峰会
王***
AI智能总结
查看更多
总结
为什么要精做特征工程
数据和特征决定了效果的上界,算法和模型只是逼近上界的手段。
特征工程是编码领域专家经验的重要手段。
好的特征工程能够显著提升模型性能。
高质量的特征能够大大简化模型复杂度。
特征工程的常见误区
误区一:深度学习时代不需要特征工程
搜索、推荐、广告领域,数据主要以关系型结构组织。
特征生成、变换操作的两大类型:Row-based和Column-based。
模型某种程度上可以学习Row-based的特征变换;但无法学习Column-based的特征变换。
误区二:有了AutoFE工具就不再需要手工做特征工程
AutoFE的研究尚处于初级阶段。
主要依赖特征变换、生成、搜索与评估。
无法自动识别场景的特殊性。
瓶颈在于评估特征子集的有效性。
误区三:特征工程没有技术含量
实际上,特征工程非常依赖于数据科学家的业务知识、直觉和经验。
富有创造性和艺术性。
什么是好的特征工程
高质量特征应具备以下特点:
有区分性(Informative)
特征之间相互独立(Independent)
简单易于理解(Simple)
伸缩性(Scalable):支持大数据量、高基数特征
高效率(Efficient):支持高并发预测、低维
灵活性(Flexible):对下游任务有一定的普适性
自适应(Adaptive):对数据分布的变化有一定的鲁棒性
数值型特征的常用变换
特征缩放
:
Min-Max标准化
Scale to -1,1
Z-score标准化
Log-based变换
L2 normalize
Robust scaling
Binning(分箱)
:
连续特征离散化
E.g. 年龄段划分:儿童、青少年、中年、老年
为什么分箱:非线性变换、增强特征可解释性、对异常值不敏感、防止过拟合
类别型特征的常用变换
交叉组合
:单特征区分性不强时,尝试组合不同特征。
分箱
:高基数特征相对于低基数特征处于支配地位。
Count Encoding
:统计类别特征的频率。
Target Encoding
:按照类别特征分组计算目标的概率。
Odds Ratio
:计算比值。
WOE(Weight Of Evidence)
:计算权重。
时序特征
统计过去1天、3天、7天、30天的总(平均)行为数。
统计过去1天、3天、7天、30天的行为转化率。
差异:环比、同比。
行为序列:需要模型配合。
关系型数据下的数据挖掘
高基数属性表示为特征时的挑战。
Scalable、Efficient、Flexible、Adaptive。
例如:用户ID、IP地址、商品ID、分类、标题。
特征工程在搜索推广场景的应用
通过统计特征的binning,实现高效预测。
通过组合特征,提高模型性能。
通过灵活地应用不同类型的特征变换,应对不同的业务需求。
你可能感兴趣
【中金建材】政策利好密集推出,建材基本面有望受益| 龚晴、陈彦、杨茂达、姚旭东、
未知机构
2022-11-28
2-3 联邦学习在电信运营商行业中的应用与实践 - 杨爱东
文化传媒
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18
【浙商金工】机器学习与因子(二): Transformer特征工程算法测评
浙商证券
2023-08-15
机器学习与因子(一):特征工程算法测评
浙商证券
2023-06-15
金融工程深度:机器学习与因子(二):Transformer特征工程算法测评
浙商证券
2023-08-12