登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
6-3 内容聚合决策在社交业务风控的实践
文化传媒
2022-07-19
DataFunSummit2022:智能风控技术峰会
七***
AI智能总结
查看更多
社交业务的内容风险
主要风险
:社交场景中最常见的内容风险包括招嫖信息与色情导流,这些信息通常包含图文、音视频以及二维码等元素。
识别体系
:单模态内容识别体系包括色情图像识别、图文音二维码识别、OCR导流话术识别、联系方式提取、色情话术识别及ASR色情音频识别。
内容聚合检索
内容表征
:采用基于Transformer的内容表征算法,如图像的MAE、音频的Conformer和文字的BERT(包括SimCSE和RoBERTa)。
相似计算
:通过将内容转化为向量,计算两个向量之间的相似性,常用的距离度量方法有欧式距离、曼哈顿距离、余弦距离和点积距离。
聚类算法
:适用于预设聚类数量的算法包括K-MEDOIDS;未设定聚类数量的算法有DBScan;流式聚类算法如Single-Pass,但存在时间复杂度过高的问题,可通过Token化+倒排索引或HNSW等向量检索算法解决。
有效检索算法
:
KNN
:精确的最近邻检索算法,主要分为Brute Force和KD-Tree两种。
ANN
:近似的最近邻检索算法,常用的有哈希算法、量化算法、图算法、SW系列、树算法、混合算法等,文本检索算法有HNSW(分层可导航小世界网络),图像检索算法有IVF-PQ(倒排索引+乘积量化)。开源检索库包括Faiss、Annoy、ScaNN、Hnswlib和Milvus。
内容决策
特征平台
:用户特征和内容特征,包括用户画像体系、用户行为特征、用户基础信息、主要业务线、最近记录、全量标签等。
审核流程
:通过UGC内容向量化聚合检索引擎审核簇信息库,统计信息增速和封禁率。
决策服务
:内容决策服务基于文本、图片和联系方式的聚合,通过下发模型组装训练样本收集特征,输出违规作弊概率,直接封禁或参与迭代审核平台。
后续工作
挑战
:新的挑战包括多用户跨场景的联合作案,涉及用户A的内容吸引目光,用户B、C、D、E的评论引导和联系方式传播。
解决方案
:基于人与内容的异构图的相似表征,通过用户相似召回和社区发现(Spam群体发现)来解决上述问题。
你可能感兴趣
1-1 度小满风控决策引擎的演进与实践
金融
DataFunSummit2022:智能风控技术峰会
2022-07-19
电商行业2020快手用户及营销报告:星云生态,内容/社交/商业的新聚合
商贸零售
清华大学
2020-12-18
图聚类在虎牙风控的实践
金融
DataFunSummit2023:智能风控峰会
2023-08-09
8-1 蚂蚁知识图谱在金融交易风控的应用实践
金融
DataFunSummit2022:智能风控技术峰会
2022-07-19
因果推断在翼支付智能决策中的探索实践
信息技术
DataFunSummit2022:因果推断在线峰会
2022-12-16