该研究使用了来自1000多个家族和近5000个个体的全基因组序列数据,提供了对常见病毒、细菌和计算污染的见解。研究发现,除了已知的污染物,如Epstein-Barr病毒和phiX,来自全血和淋巴细胞细胞系的序列还包含许多其他污染物,可能源自储存、制备和测序管道。样品的测序板和生物样品来源强烈影响污染概况。实验衍生和计算污染在下一代测序数据中都很突出。这种污染可能会影响WGS和宏基因组学研究的结果,因此应制定用于识别和去除污染的标准协议,以确保基于测序的研究的准确性。