登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
6-3 内容聚合决策在社交业务风控的实践
文化传媒
2022-07-19
DataFunSummit2022:智能风控技术峰会
七***
AI智能总结
查看更多
社交业务的内容风险与聚合决策实践
01 社交业务的内容风险
主要风险类型
:招嫖信息与色情导流,是社交场景中最主要内容风险,常以图文音等形式出现,并包含联系方式提取、色情话术识别等特征。
单模态内容识别体系
:包括色情图像识别、图文音二维码识别、OCR导流话术识别、联系方式提取、色情话术识别、ASR-色情音频识别。
内容对抗难点
:作弊信息融合手段不可穷尽,拦截算法对爆发式对抗响应差,多场景多模态联合作案利用真实环境干扰对抗图文联合。
02 内容聚合检索
内容表征-Embedding
:基于Transformer的内容表征算法体系,包括图像(MAE)、音频(Conformer)、文字(BERT/SimCSE/RoBERTa)。
相似计算
:将内容转化为向量后,通过欧式距离、曼哈顿距离、余弦距离、点积距离等度量向量间距离。
聚类算法
:
K-MEDOIDS:预先设定聚类数量,用于相似图文归为一类消除对抗性。
DBScan:未设定聚类簇数量,适用于流式聚类。
Single-Pass:时间复杂度O(N^2)问题通过Token化+倒排索引或HNSW等向量检索算法解决。
KNN与ANN算法
:
KNN:Brute Force和KD-Tree,用于精确的最近邻检索。
ANN:哈希算法、量化算法、图算法、SW系列、树算法、混合算法,常见开源库包括Faiss、Annoy、ScaNN、Hnswlib、Milvus。
03 内容决策
基于聚合簇的有效特征
:簇成员采样(≤K不采样,>K水库抽样)、簇中心点选取、簇数量上限取舍、冷启/回扫/存活时间管理。
决策流程
:
UGC内容向量化聚合检索引擎审核簇信息库,统计信息增速、封禁率。
结合用户画像体系、用户行为特征、用户基础信息、业务线(动态、评论等)、最近记录、全量标签等特征,训练决策服务。
输出违规作弊概率,精度>0.s直接封禁,其他阈值分级处理,并获取人工审核反馈迭代。
审核平台
:文本聚合、图片聚合、联系方式聚合,下发模型组装训练样本收集特征。
04 后续工作
新的挑战
:多用户跨场景的联合作案,如用户A内容吸引目光,用户B/C/D/E评论引导文本/联系方式片段。
基于人与内容的异构图相似表征
:
用户相似召回:借鉴倒排索引发掘相似人群,建立人的内容向量发掘相似人群,社区发现-Spam群体发现。
联系方式簇管理。
你可能感兴趣
1-1 度小满风控决策引擎的演进与实践
金融
DataFunSummit2022:智能风控技术峰会
2022-07-19
电商行业2020快手用户及营销报告:星云生态,内容/社交/商业的新聚合
商贸零售
清华大学
2020-12-18
8-1 蚂蚁知识图谱在金融交易风控的应用实践
金融
DataFunSummit2022:智能风控技术峰会
2022-07-19
图聚类在虎牙风控的实践
金融
DataFunSummit2023:智能风控峰会
2023-08-09
数据治理一体化在Mobtech金融风控场景下的实践
袤博科技
2021-09-13