数据处理
自适应方式过滤双重细胞和死亡细胞
同一批次的试验样本的所有细胞被汇集,这样相同的门被应用于一个给定批次的所有样本
然后对表达式值进行转换。
对于CyTOF数据,应用了双曲反arcsin变换,其系数为5。
对于光谱流式细胞术数据,应用了Logicle转换,通过在flowCore包中实现的estimateLogicle函数,以数据自适应的方式估计参数。
在特定批次的预处理之后,将输出连接起来,只保留所有批次的共同标记
批次校正
这一步的目标是使系统能够学习由于技术影响而不是生物变异性造成的批次之间的偏差。
因此,我们只使用健康对照的数据进行批量校正,不包括患者 数据。
数据首先向下采样到每批200,000个单元(除非另有说明),从每个控制中取大约相等数量的单元,以减少计算负担。
然后,我们使用默认参数批量纠正了所有标记的表达式值与Harmony(14),我们没有进行主成分分析,而是直接将每个标记作为批量校正的输入。
通过人工检查评估批校正的效果,使用统一流形近似和投影(UMAP)进行数据可视化
无监督聚类
批校正后的表达值通过UMAP第1维降为10维。
buildSNNGraph函数构造SNN图,使用默认设置。
利用Louvain算法对图进行簇划分
预测细胞类型
对用于无监督聚类的健康对照组的细胞进行下采样,对给定批次每个聚类最多保留100个细胞
在对非批处理校正的表达式值进行中心化和缩放后,我们通过内部上采样进行了5次重复的10次交叉验证,以最大化k统计量
对每个批次进行参数调优
然后将批次特异性分类器应用于给定批次中的所有细胞,包括患者和旅行/家庭控制的细胞,以概率方式确定最佳匹配簇
将所有的细胞,包括健康和疾病细胞分配到由健康病人定义的细胞类型中
因此,仍然有可能,分配到某一特定簇的患者的细胞相对于同一簇的对照组细胞,在某一子集的标记显示差异表达。
需要进行聚类差异表达分析来全面表征这些差异表达标记,此部分没有在文章中说明