Сборка генома

Сборка генома
Перекрывающиеся фрагменты образуют контиги, контиги с промежутками известной длины образуют скаффолды.

Сборка генома — процесс объединения большого количества коротких фрагментов ДНК (ридов) в одну или несколько длинных последовательностей (контигов и скаффолдов), в целях восстановления последовательностей ДНК хромосом, из которых возникли эти фрагменты в процессе секвенирования.

Сборка генома является очень сложной вычислительной задачей, в частности, осложнённой тем, что геномы зачастую содержат большое количество одинаковых повторяющихся последовательностей (так называемые геномные повторы). Эти повторы могут быть длиной в нескольких тысяч нуклеотидов, а также встречаться в тысячи различных мест в геноме. Особенно богаты повторами большие геномы растений и животных, в том числе геном человека.

Содержание

Алгоритмические подходы

Существует два подхода для сборки геномов — основанный на перекрытии overlap-layout-consensus (применяется для длинных фрагментов), а также основанный на графах де Брюйна (применяется для коротких фрагментов) [1][2].

Overlap-Layout-Consensus

При секвенировании методом дробовика всё ДНК организма сначала разрезают на миллионы маленьких фрагментов до 1000 нуклеотидов в длину. Затем алгоритмы сборки генома рассматривают полученные фрагменты одновременно, находя их перекрытия (overlap), объединяя их по перекрытиям (layout) и исправляя ошибки в объединённой строке (consensus). Данные шаги могут повторятся несколько раз в процессе сборки.

Данный подход был наиболее распространён для сборки геномов до появления секвенирования следующего поколения.

Графы де Брюйна

С развитием технологий секвенирования следующего поколения, получение фрагментов стало на порядок дешевле, но размер фрагментов стал меньше (до 150 нуклеотидов), а количество ошибок при чтении фрагментов увеличились (до 3%). При сборке таких данных получили распространение методы [3], основанные на графах де Брёйна.

Доступные сборщики

Список популярных геномных сборщиков:

Название Поддерживаемые технологии Авторы Представлен Обновлён Лицензия* Домашняя страница
ABySS Solexa, SOLiD Simpson, J. et al. 2008 2011 NC-A ссылка
ALLPATHS-LG Solexa, SOLiD Gnerre, S. et al. 2011 2011 OS ссылка
CLC Genomics Workbench Sanger, 454, Solexa, SOLiD CLC bio 2008 2010 C ссылка
Euler Sanger, 454 (,Solexa ?) Pevzner, P. et al. 2001 2006 (C / NC-A?) ссылка
Euler-sr 454, Solexa Chaisson, MJ. et al. 2008 2008 NC-A ссылка
IDBA Sanger,454,Solexa Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin 2010 2010 (C / NC-A?) ссылка
MIRA Sanger, 454, Solexa Chevreux, B. 1998 2011 OS ссылка
Newbler 454, Sanger 454/Roche 2009 2009 C ссылка
SOPRA Illumina, SOLiD, Sanger, 454 Dayarian, A. et al. 2010 2011 OS ссылка
SOAPdenovo Solexa Li, R. et al. 2009 2009 OS ссылка
SPAdes Illumina, Solexa Bankevich, A et al. 2012 2012 OS ссылка
Velvet Sanger, 454, Solexa, SOLiD Zerbino, D. et al. 2007 2009 OS ссылка
*Licences: OS = Open Source; C = Коммерческая; C / NC-A = Коммерческая, но бесплатна для использования в некоммерческих и научных целях; Скобки = неизвестно, но скорее всего C / NC-A

Примечания

  1. Zhenyu Li et al. (2012). «Comparison of the two major classes of assembly algorithms: overlap–layout–consensus and de-bruijn-graph». Briefings in Functional Genomics 11 (1): 25-37. DOI:10.1093/bfgp/elr035.
  2. Miller JR, Koren S, Sutton G. (2010). «Assembly algorithms for next-generation sequencing data». Genomics 95 (6): 315-327.
  3. Pavel A. Pevzner, Haixu Tang, Michael S. Waterman (2001). «An Eulerian path approach to DNA fragment assembly». PNAS 98 (17): 9748-9753. DOI:10.1073/pnas.171285098.

Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Полезное


Смотреть что такое "Сборка генома" в других словарях:

  • Сборка — В Викисловаре есть статья «сборка» Сборка (действие): Сборка (техника)  образование соединений составных частей изделия (по ЕСТД …   Википедия

  • Сборка вирионов — высокоспецифический процесс взаимодействия белковых и нуклеиновых молекул, приводящий к образованию вирионов(см.). У простых РНК геномных вирусов с кубической или спиральной симметрией С в состоит в ассоциации вирусного генома с капсидными… …   Словарь микробиологии

  • Искусственный геном — Искусственный геном  направление в биологических исследованиях, связанное с генетической модификацией существующих организмов с целью создания организмов с новыми свойствами. В отличие от генной инженерии, искусственный геном состоит из… …   Википедия

  • Ви́русы — (лат. virus яд) мельчайшие микроорганизмы, не имеющие клеточного строения, белоксинтезирующей системы и способные к воспроизведению лишь в клетках высокоорганизованных форм жизни. Они широко распространены в природе, поражают животных, растения и …   Медицинская энциклопедия

  • Дезоксирибонуклеиновая кислота — Двойная спираль ДНК Дезоксирибонуклеиновая кислота (ДНК) макромолекула(одна из трех основных, две другие РНК и белки), обеспечивающая хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования… …   Википедия

  • ДНК — Двойная спираль ДНК Дезоксирибонуклеиновая кислота (ДНК) один из двух типов нуклеиновых кислот, обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. Основная… …   Википедия

  • Двойная спираль — ДНК Дезоксирибонуклеиновая кислота (ДНК) один из двух типов нуклеиновых кислот, обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. Основная роль ДНК в… …   Википедия

  • Модель Уотсона — Крика — Двойная спираль ДНК Дезоксирибонуклеиновая кислота (ДНК) один из двух типов нуклеиновых кислот, обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. Основная… …   Википедия

  • Биоинформатика — математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика). разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). исследование стратегий,… …   Википедия

  • Клетка — I Клетка (cytus) основная структурно функциональная единица, определяющая строение, жизнедеятельность, развитие и размножение животных и растительных организмов за исключением вирусов; элементарная живая система, способная к обмену веществ с… …   Медицинская энциклопедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»