Preview

Вавиловский журнал генетики и селекции

Расширенный поиск

FastContext: инструмент для контекстного анализа последовательностей в данных секвенирования нового поколения (NGS)

https://doi.org/10.18699/VJGB-22-97

Аннотация

Бурное развитие методов секвенирования нового поколения (next generation sequencing, NGS) породило потребность в детальном анализе и контроле качества на каждом этапе протокола приготовления геномных библиотек. Протоколы могут включать в себя этапы с внедрением различного рода служебных последовательностей, таких как адаптеры, праймеры, а также баркоды, специфичные для каждого образца, клетки или молекулы ДНК. Несмотря на достаточно высокий уровень современных знаний в молекулярной биологии, в процессе разработки протоколов NGS исследователи часто сталкиваются с неожиданными экспериментальными данными, которые могут быть результатом недостатка информации о молекулярных процессах, сопровождающих приготовление геномных библиотек, или, в отдельных случаях, дефектом производства реактивов. Обнаружение и анализ распределения служебных последовательностей в полученных молекулах ДНК могут быть важным источником информации, необходимой для оптимизации протокола приготовления геномных биб лиотек. В настоящей статье представлена утилита FastContext, с помощью которой возможен анализ структуры прочтений с точки зрения присутствия определенных последовательностей и их взаимного расположения в прочтении. Алгоритм принимает на вход необработанные данные секвенирования в формате FastQ, а затем генерирует удобные для интерпретации представления структуры прочтений на основе заданных пользователем паттернов, высчитывает количество подобных структур и их долю от общего числа прочтений. Несмотря на простоту алгоритма, FastContext может быть полезен при анализе структуры прочтений, он помогает лучше понять молекулярные процессы, происходящие на разных стадиях приготовления геномных библиотек и, как следствие, открывает возможности для усовершенствования протокола. FastContext – это проект с открытым исходным кодом, распространяемый под свободной лицензией GNU General Public License v3, полностью написанный на языке программирования Python и основанный на широко используемых программных пакетах и форматах данных. Таким образом, он может быть легко использован под любой операционной системой, исправлен и дополнен при необходимости. FastContext доступен в виде пакета в Python Package Index (https:// pypi.org/project/FastContext), исходный код хранится на GitHub (https://github.com/regnveig/FastContext).

Об авторах

Э. Весна
Федеральный исследовательский центр Институт цитологии и генетики Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет
Россия

Новосибирск



В. С. Фишман
Федеральный исследовательский центр Институт цитологии и генетики Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университет
Россия

Новосибирск



Список литературы

1. Aldridge S., Teichmann S. Single cell transcriptomics comes of age. Nat. Commun. 2020;11(1):4307. DOI 10.1038/s41467­020­18158­5.

2. Andrews S. FastQC: A quality control tool for high throughput sequence data. 2010. Available online at: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

3. Bravo A., Typas A., Veening J. 2FAST2Q: A general­purpose sequence search and counting program for FASTQ files [preprint]. BioRxiv. 2021. DOI 10.1101/2021.12.17.473121.

4. Cock P., Antao T., Chang J., Chapman B., Cox C., Dalke A., Friedberg I., Hamelryck T., Kauff F., Wilczynski B., de Hoon M. Biop ython: freely available Python tools for computational molecular biology and bioinformatics. Bioinformatics. 2009;25(11):1422­1423. DOI 10.1093/bioinformatics/btp163.

5. Costa­Luis C., Larroque S., Altendorf K., Mary H., Korobov M., Yorav­Raphael N., Ivanov I., Bargull M., Rodrigues N., Chen G., Newey C., Zugnoni M., Pagel M., Dektyarev M., Rothberg A., Lee A., Panteleit D., Dill F., Kemenade H., McCracken J., Nordlund M., Nechaev N., Desh O. tqdm: A fast, Extensible Progress Bar for Python and CLI. Zenodo. 2022. DOI 10.5281/zenodo.595120.

6. Gridina M., Mozheiko E., Valeev E., Nazarenko L., Lopatkina M., Markova Z., Yablonskaya M., Voinova V., Shilova N., Lebedev I., Fishman V. A cookbook for DNase Hi­C. Epigenetics Chromatin. 2021; 14(1):15. DOI 10.1186/s13072­021­00389­5.

7. Martin M. Cutadapt removes adapter sequences from high­throughput sequencing reads. EMBnet J. 2011;17(1):10­12. DOI 10.14806/ej.17.1.200.

8. Smirnov A., Fishman V., Yunusova A., Korablev A., Serova I., Skryabin B., Rozhdestvensky T., Battulin N. DNA barcoding reveals that injected transgenes are predominantly processed by homologous recombination in mouse zygote. Nucleic Acids Res. 2020;48(2):719735. DOI 10.1093/nar/gkz1085.

9. The Pandas Development Team. pandas­dev/pandas: Pandas. Zenodo. 2020. DOI 10.5281/zenodo.3509134.


Рецензия

Просмотров: 709


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2500-3259 (Online)