大数据除了要满足数据容量大,变量多亦是重要决定因素。本研究的数据来源为美国环保局公布的页岩气开采用水污染物,样本容量为1173种物质。研究目标为基于此先验知识,预测该类型样品中可被斑马鱼胚胎检测到的毒性终点。如此“长距离”跨度的预测,仅依赖有限数据量难以达到预期准确性。所以,本研究建立了一套“化合物-生物活性-基因-表型”四维度多变量的数据串联模式(图1)。化合物与ToxCast数据库融合后获得955个生物活性标签;生物活性从CCD数据库分类并与基因数据库融合获得135个斑马鱼同源基因,通过KEGG和GO分别富集出214条本体和65条通路;富集结果通过CTD和NCBI注释获得表型效应,并对PubChem文本挖掘获得10种作用模式下的27个毒性终点(图2)。此外,本研究还使用斑马鱼胚胎对中国重庆地区采集的页岩气开采场地废水样品暴露,并开展全转录组测序分析,对比发现89%的本体与97%的通路与大数据预测结果匹配。在预测的毒性终点中,有99.5%的作用模式相同,且优先度排序基本一致(图2)。从而验证了基于关系数据库模式开展大数据预测工作的可靠性。
在开展数据驱动型的毒性识别工作时,针对数据容量大的场景,可直接使用文本挖掘批量收集历史数据,并利用机器学习分类其中关键信息,例如作者在中国毒性地图绘制的相关工作(Cheng et al., Environ. Sci. Technol., 2021, 55(13));而当数据缺失时,可能仅仅是因为单一变量导致的一叶障目,打破不同类型数据间的孤岛,互相填补之间的缺口,同样是大数据必不可少的手段。
图1. 关系数据库串联不同种类数据以构建毒性终点预测用的大数据
图2. 页岩气开采场地样品适用的斑马鱼胚胎测试毒性终点,分别由大数据预测(黄色)和全转录组测序验证(蓝色)
原文地址:Fei Cheng, Zhimin Zhou, Fan Wu, Huizhen Li, Zhiqiang Yu, Xiangying Zeng, and Jing You* Data-Driven Endpoint Selection in Data-Poor Scenarios: Bioassay Design for Shale Gas Flowback and Produced Waters
https://doi.org/10.1021/acs.estlett.2c00648