您的位置:首页→FDR

FDR

FDR简介

软件通常被用来从质谱数据中鉴定多肽。正如科学实验需要建立对照组,软件的多肽鉴定结果也需要进行统计验证以避免假阳性。对于目前的多肽鉴定,主流的结果确证方法是通过假发现率(false discovery rate,FDR)的计算。我们在这里对于FDR的概念对大家作一简单介绍,包括如何计算FDR,在使用FDR做结果质控时可能发生的错误。


FDR

对于每一个多肽鉴定的软件而言,其核心是建立一个评估一个肽段和一张谱图之间匹配质量的打分算法。对于在数据集中的每一张MS/MS谱图,软件搜索蛋白质数据库以期望发现能够与之匹配,并能得到最高得分的一条多肽结果。在谱图与最高打分的多肽之间的匹配,通常被称为肽谱匹配(peptide-spectrum match,PSM)。

有多种原因可能导致肽谱匹配的错误,包括:(1)谱图质量较差;(2)数据库中没有这条多肽序列;(3)打分算法的设计缺陷。为了对结果进行质控,通常对PSM按照其得分进行排序。通过选择一个合适的得分阈值,在这个阈值以上的肽谱匹配的质量被认为是可靠性较高的(图1)。假发现率或者说FDR,定义为在这个得分阈值以上,错误的肽谱匹配占总体肽谱匹配数目的比例。

图1 打分算法用于区分正确和错误鉴定结果

通过调整得分阈值,可以对结果的准确度(FDR)和灵敏度(报告的鉴定结果数目)进行调整。不同的软件因为采用了不同的打分算法,其FDR与灵敏度之间了能产生不同的权衡效应。

图2:不同的多肽鉴定软件的性能可以通过它们的FDR曲线进行比较,在相同的FDR中,表现最好的应该识别出最多的PSM。


用Target-Decoy的方法评估FDR

实际上,我们很难预知哪些肽谱匹配是错误的,否则,我们就可以轻易去除各种假阳性结果以实现0 FDR。因此,target-decoy 的方法被广泛用于评估FDR的水平。在这种方法中,软件对目标数据库与相应的decoy 数据库进行合并后一起搜库。Decoy数据库是将目标数据库按照一定规则对蛋白或是肽段的序列进行反转/随机打散,构建与目标数据库(或称正库)相同数据规模的假数据库来测试软件的识别正确、错误的能力。由于所有的在decoy中得到匹配的结果都是错误的,所以FDR可以通过在decoy库中得到匹配的数目与正库中得到匹配的数目的比值来反映。

图3 在构建合适反库的情况下,错误匹配在正库和反库中分布均匀,从而可以利用在反库中匹配的数量来估计FDR。


Target-decoy FDR常见的错误用法

如果使用合理的情况下,Target-decoy的方法是一种统计上合理的FDR评估方法。然而,在一些常见的错误用法中,可能会导致过度乐观的结果质控。这里我们简单总结了几种常见的target-decoy错误用法。在这里我们要再次强调上述“正、反库的相同规模”和“平均分布”是正确使用Target-decoy方法的先决条件。大多数错误使用target-decoy的FDR是违反了上述原则造成的。

1. 在多轮搜库策略中采用target-decoy评估结果

很多人会采取多轮搜库的策略,在首轮搜索中从大数据库中选择鉴定序列后再构建小库(不再是整个数据库)进行二轮搜索,希望在相同的FDR下得到更高的灵敏度和更多的结果。但是这种策略误用了Target-decoy方法,第一轮选择出了更多的target匹配蛋白,而去掉了相当多的decoy匹配的蛋白,因此,Target库和decoy库在第二轮中规模不同(图4)。

图4  在第一轮搜库后保留了大多数target库匹配结果,在第二轮搜索中decoy库的匹配减少很多,所以,不能再用decoy匹配数目来对目标库中错误匹配的数目来进行估计。


2. 在Target-decoy策略评估PSM得分时引入蛋白层面信息

一个蛋白通过其他高可信度肽段证明其高可信度,很多软件会对这个蛋白的其他肽段增加奖励性得分。这种方法在增加灵敏度(相同FDR情况增加了PSM)的同时,target匹配中产生的错误比decoy增加的更多,错误匹配不再均匀分布。所以也是一种target-decoy的错误用法。


3. 采用Target-decoy结果对搜库结果得分进行重新训练和排名

重新对匹配结果进行算法训练可能会用到太多参数进行优化使得数据过度适配和优化,去除了过多的decoy匹配(而没有去除target库的错配),所以该策略只能在设计重新训练算法时,考虑了过匹配的情况,同时数据集非常大的时候才适合使用。具体参考文章A Practical Guide to Significantly Improving Peptide Identification Sensitivity and Accuracy.


PEAKS采用的Decoy Fusion算法

有一个简单的方法来避免前面两种错误用法——在PEAKS DB发表的文章中建立了一种decoy fusion的方法。与同时包含target库和decoy库的方法不同,decoy fusion 的方法是将同一个蛋白的的target序列和Decoy序列整合成新的“混合”序列。这种方法简单,但是又能对于错误使用target decoy的方法做出一些有意义的改变。对于二轮搜索方法的问题,多轮搜库策略下,第二轮搜库中所使用的数据库保持target和decoy规模一致。对于蛋白打分算法,对可信蛋白PSM的奖励打分同样平均分布在Target-Decoy融合序列中。因此, “相同大小”和“均匀分布”的两个先决条件得以重现,并FDR重新得以精确评估。在PEAKS软件中内置的结果验证使用了这种decoy fusion的方法。

图5 decoy fusion的方法将target序列和decoy序列“融合”在一起,即使采用两轮搜索算法,target序列和decoy序列的长度也是相同的。




微信关注
产品与服务
产品中心
技术服务
下载中心
视频下载
资料下载
新闻与活动
活动中心
新闻资讯
关于我们
招贤纳士
合作伙伴
联系我们
备案号:沪ICP备18003966号-1
Tel:+86-21-54155562
Fax:+86-21-60763798
E-mail: sales@wandougu.com
Add:上海市松江区沪松公路 1399 弄 69 号 718
Copyright 2017wandougu. All rights reserved.

用户登录

用户注册