|
Технические сдвиги в наборах генных данных
Секвенирование РНК является популярным инструментом среди молекулярных биологов, поскольку оно позволяет им изучать паттерны экспрессии генов в ДНК. Тем не менее, техника подвержена экспериментальным артефактам, которые могут привести к неверно истолкованным результатам. Согласно исследованию, один такой сдвиг, связанный с длиной генных данных, широко распространен во многих опубликованных наборах.
Наборы данных РНК
Команда ученых анализировала наборы данных РНК-секвенирования для проекта, направленного на вывод о совместной регуляции генов путем изучения их совместной экспрессии во многих различных биологических условиях. Исследователи наткнулись на удивительное открытие: гены, кодирующие белки в рибосоме или другом механизме, связанном с трансляцией, - которые являются исключительно короткими, - и гены, кодирующие белки внеклеточного матрикса, такие как коллаген, которые являются исключительно длинными, продолжали появляться в их анализах. Во многих различных наборах гены, которые были повышены и понижены, были обогащены для этих специфических функций. Команда задалась вопросом, было ли биологическое объяснение, или это было результатом технического сбоя. Чтобы ответить на этот вопрос, они выбрали 35 наборов данных РНК-seq человека и мыши из GEO, общедоступного хранилища данных генов. Большинство выбранных ими наборов данных появилось в статьях, опубликованных в период между 2017 и 2018 годами, и содержало от двух до четырех повторяющихся образцов, оценивающих одно и то же биологическое состояние, например, лечение фактором некроза опухоли, белком, участвующим в воспалении.
Смещение длины
Их анализ показал, что чрезвычайно короткие или длинные гены демонстрируют различные паттерны экспрессии между повторяющимися образцами, что указывает на то, что это экспериментальный артефакт. Если транскрипты отражают некоторую клеточную активность, имеющую отношение к рассматриваемому биологическому состоянию, их численность должна быть одинаковой для образцов каждого условия. Эта проблема, которую авторы называют смещением длины для конкретного образца, присутствовала в 30 из 35 наборов данных. Это указывало на то, что обогащение для очень длинных и очень коротких генов фактически отражает какую-то техническую проблему в эксперименте. Исследователи также обнаружили, что систематическая ошибка длины образца увеличивает количество ложноположительных результатов в анализе обогащения набора генов, методе, который широко используется для проверки соответствия генов, которые показывают измененные уровни экспрессии между наборами данных RNA-seq к биологической функции.
|