References

vavilov

Вавиловский журнал генетики и селекции

Vavilov Journal of Genetics and Breeding

2500-3259

Institute of Cytology and Genetics of Siberian Branch of the RAS

10.18699/VJGB-22-97

vavilov-3582

Research Article

КОМПЬЮТЕРНАЯ ГЕНОМИКА

COMPUTATIONAL GENOMICS

FastContext: инструмент для контекстного анализа последовательностей в данных секвенирования нового поколения (NGS)

FastContext: A tool for identification of adapters and other sequence patterns in next generation sequencing (NGS) data

https://orcid.org/0000-0003-3480-3963

Весна

Э.

Viesná

Новосибирск

Novosibirsk

https://orcid.org/0000-0002-5573-3100

Фишман

В. С.

Fishman

Новосибирск

Novosibirsk

minja@bionet.nsc.ru

Федеральный исследовательский центр Институт цитологии и генетики Сибирского отделения Российской академии наук; Новосибирский национальный исследовательский государственный университетРоссияInstitute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences; Novosibirsk State UniversityRussian Federation

2022

05012023

268806809

2023

Весна Э., Фишман В.С.

Viesná E., Fishman V.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://vavilov.elpub.ru/jour/article/view/3582

Бурное развитие методов секвенирования нового поколения (next generation sequencing, NGS) породило потребность в детальном анализе и контроле качества на каждом этапе протокола приготовления геномных библиотек. Протоколы могут включать в себя этапы с внедрением различного рода служебных последовательностей, таких как адаптеры, праймеры, а также баркоды, специфичные для каждого образца, клетки или молекулы ДНК. Несмотря на достаточно высокий уровень современных знаний в молекулярной биологии, в процессе разработки протоколов NGS исследователи часто сталкиваются с неожиданными экспериментальными данными, которые могут быть результатом недостатка информации о молекулярных процессах, сопровождающих приготовление геномных библиотек, или, в отдельных случаях, дефектом производства реактивов. Обнаружение и анализ распределения служебных последовательностей в полученных молекулах ДНК могут быть важным источником информации, необходимой для оптимизации протокола приготовления геномных биб лиотек. В настоящей статье представлена утилита FastContext, с помощью которой возможен анализ структуры прочтений с точки зрения присутствия определенных последовательностей и их взаимного расположения в прочтении. Алгоритм принимает на вход необработанные данные секвенирования в формате FastQ, а затем генерирует удобные для интерпретации представления структуры прочтений на основе заданных пользователем паттернов, высчитывает количество подобных структур и их долю от общего числа прочтений. Несмотря на простоту алгоритма, FastContext может быть полезен при анализе структуры прочтений, он помогает лучше понять молекулярные процессы, происходящие на разных стадиях приготовления геномных библиотек и, как следствие, открывает возможности для усовершенствования протокола. FastContext – это проект с открытым исходным кодом, распространяемый под свободной лицензией GNU General Public License v3, полностью написанный на языке программирования Python и основанный на широко используемых программных пакетах и форматах данных. Таким образом, он может быть легко использован под любой операционной системой, исправлен и дополнен при необходимости. FastContext доступен в виде пакета в Python Package Index (https:// pypi.org/project/FastContext), исходный код хранится на GitHub (https://github.com/regnveig/FastContext).

The development of next generation sequencing (NGS) methods has created the need for detailed analysis and control of each protocol step. NGS library preparation protocols may include steps with incorporation of various service sequences, such as sequencing adapters, primers, sample-, cell-, and molecule-specific barcodes. Despite a fairly high level of current knowledge, during the protocol development process researches often have to deal with various kinds of unexpected experiment outcomes, which result either from lack of information, lack of knowledge, or defects in reagent manufacturing. Detection and analysis of service sequences, their distribution and linkage may provide important information for protocol optimization. Here we introduce FastContext, a tool designed to analyze NGS read structure, based on sequence features found in reads, and their relative position in the read. The algorithm is able to create human readable read structures with user-specified patterns, to calculate counts and percentage of every read structure. Despite the simplicity of the algorithm, FastContext may be useful in read structure analysis and, as a result, can help better understand molecular processes that take place at different stages of NGS library preparation. The project is open-source software, distributed under GNU GPL v3, entirely written in the programming language Python, and based on well-maintained packages and commonly used data formats. Thus, it is cross-platform, may be patched or upgraded by the user if necessary. The FastContext package is available at the Python Package Index (https://pypi. org/project/FastContext), the source code is available at GitHub (https://github.com/regnveig/FastContext).

секвенирование нового поколенияNGSадаптерыпоиск паттернованализ прочтений

next generation sequencingNGSadapterspatterns searchread analysis

This work was supported by Russian Science Foundation, grant No. 22-14-00247. High-throughoutput computations required for FastContext testing were performed using the Collective usage center of the Institute of Cytology and Genetics SB RAS, 121031800061-7 (Mechanisms of genetic control of development, physiological processes and behavior in animals).

References1

Aldridge S., Teichmann S. Single cell transcriptomics comes of age. Nat. Commun. 2020;11(1):4307. DOI 10.1038/s41467020181585.

Andrews S. FastQC: A quality control tool for high throughput sequence data. 2010. Available online at: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Bravo A., Typas A., Veening J. 2FAST2Q: A generalpurpose sequence search and counting program for FASTQ files [preprint]. BioRxiv. 2021. DOI 10.1101/2021.12.17.473121.

Cock P., Antao T., Chang J., Chapman B., Cox C., Dalke A., Friedberg I., Hamelryck T., Kauff F., Wilczynski B., de Hoon M. Biop ython: freely available Python tools for computational molecular biology and bioinformatics. Bioinformatics. 2009;25(11):14221423. DOI 10.1093/bioinformatics/btp163.

CostaLuis C., Larroque S., Altendorf K., Mary H., Korobov M., YoravRaphael N., Ivanov I., Bargull M., Rodrigues N., Chen G., Newey C., Zugnoni M., Pagel M., Dektyarev M., Rothberg A., Lee A., Panteleit D., Dill F., Kemenade H., McCracken J., Nordlund M., Nechaev N., Desh O. tqdm: A fast, Extensible Progress Bar for Python and CLI. Zenodo. 2022. DOI 10.5281/zenodo.595120.

Gridina M., Mozheiko E., Valeev E., Nazarenko L., Lopatkina M., Markova Z., Yablonskaya M., Voinova V., Shilova N., Lebedev I., Fishman V. A cookbook for DNase HiC. Epigenetics Chromatin. 2021; 14(1):15. DOI 10.1186/s13072021003895.

Martin M. Cutadapt removes adapter sequences from highthroughput sequencing reads. EMBnet J. 2011;17(1):1012. DOI 10.14806/ej.17.1.200.

Smirnov A., Fishman V., Yunusova A., Korablev A., Serova I., Skryabin B., Rozhdestvensky T., Battulin N. DNA barcoding reveals that injected transgenes are predominantly processed by homologous recombination in mouse zygote. Nucleic Acids Res. 2020;48(2):719735. DOI 10.1093/nar/gkz1085.

The Pandas Development Team. pandasdev/pandas: Pandas. Zenodo. 2020. DOI 10.5281/zenodo.3509134.

The authors declare that there are no conflicts of interest present.