ЦГИМУ

Сравнительный анализ алгоритмов детекции CNV по данным экзомного секвенирования

Центр высокоточного редактирвоания и генетических технологий для биомедицины
Полноэкзомное секвенирование считается надежным и доступным подходом для поиска однонуклеотидных полиморфизмов и коротких инсерций/делеций. Однако эффективность применения данной технологии с целью идентификации более крупных геномных вариаций, таких как CNV, остаётся неясной. Ранние исследования эффективности существующих подходов проводились на достаточно ограниченном наборе из 3-4 алгоритмов, кроме того они использовали разные критерии для валидации. Учитывая несопоставимость полученных результатов, а также новые разработки в этой области, вопрос выбора наиболее оптимального алгоритма для детекции CNV до сих пор остается актуальным.

В рамках этой работы коллектив ученых ФГБУ ФНКЦ ФХМ ФМБА России провел сравнительный анализ 16 алгоритмов детекции CNV по экзомным данным. Для создания внутреннего стандарта на уровне экзонов были использованы общедоступные данные по исследованию CNV у эталонного образца NA12878. Было показано, что алгоритмы неравнозначны - каждый из них имеет определенный диапазон детектируемых длин, а результаты предсказаний плохо согласуются между собой. Большинство алгоритмов ориентировано на поиск ограниченного числа CNV длиной от одного до семи экзонов, доля ложноположительных результатов не выше 50%. EXCAVATOR2, exomeCopy и FishingCNV способны идентифицировать широкий спектр вариаций, однако показывают низкую точность. 

 Ввиду разной направленности алгоритмов, выбор наиболее подходящего стоит основывать на дизайне исследования и допустимых критериях точности идентификации.

Veronika Gordeeva, Elena Sharova, Konstantin Babalyan, Rinat Sultanov, Vadim M. Govorun, and Georgij Arapidi. Benchmarking germline CNV calling tools from exome sequencing data // Sci Rep. 2021; 11: 14416. DOI: 10.1038/s41598-021-93878-2; IF=4.13, Q1.