白皮书2介绍了如何利用机器学习技术来检测恶意域,帮助扩展 Splunk 平台的安全用例。首先,数据探索和特征工程是准备继续机器学习的关键步骤。然后,创建、评估和操作用于 DGA 检测的机器学习模型。通过使用 ngram 参数设置为 1-3 个字符长度的 TFIDF 算法,可以获取域名字符串中最常用的字符组矩阵。PCA 可以减少维度,以获得可以在 3D 散点图中可视化的有用表示。通过计算各种指标,例如香农熵、字典中已知单词的比率,甚至是字符串长度或辅音比等简单特征,可以进一步表征域名。这种方法的结果已经可以用作从域名字符串计算的第一个数值特征,以确定域与 DGA 子类的给定特征的关系。