<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">vavilov</journal-id><journal-title-group><journal-title xml:lang="ru">Вавиловский журнал генетики и селекции</journal-title><trans-title-group xml:lang="en"><trans-title>Vavilov Journal of Genetics and Breeding</trans-title></trans-title-group></journal-title-group><issn pub-type="epub">2500-3259</issn><publisher><publisher-name>Institute of Cytology and Genetics of Siberian Branch of the RAS</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.18699/vjgb-26-33</article-id><article-id custom-type="elpub" pub-id-type="custom">vavilov-5043</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>БИОИНФОРМАТИКА И СИСТЕМНАЯ БИОЛОГИЯ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>BIOINFORMATICS AND SYSTEMS BIOLOGY</subject></subj-group></article-categories><title-group><article-title>Alembic: от разрозненных биологических данных к структурированным ресурсам</article-title><trans-title-group xml:lang="en"><trans-title>Alembic: a framework for converting disparate biological data into structured resources</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Бездворных</surname><given-names>И. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Bezdvornykh</surname><given-names>I. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Санкт-Петербург</p></bio><bio xml:lang="en"><p>St. Petersburg</p></bio><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Юдыцкий</surname><given-names>К. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Yuditskiy</surname><given-names>K. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Санкт-Петербург</p></bio><bio xml:lang="en"><p>St. Petersburg</p></bio><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Черкасов</surname><given-names>Н. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Cherkasov</surname><given-names>N. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Санкт-Петербург</p></bio><bio xml:lang="en"><p>St. Petersburg</p></bio><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Самсонова</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Samsonova</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Санкт-Петербург</p></bio><bio xml:lang="en"><p>St. Petersburg</p></bio><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Канапин</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Kanapin</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Санкт-Петербург</p></bio><bio xml:lang="en"><p>St. Petersburg</p></bio><email xlink:type="simple">a.kanapin@gmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru">Институт трансляционной биомедицины, Санкт-Петербургский государственный университет<country>Россия</country></aff><aff xml:lang="en">Institute for Translational Biomedicine, Saint Petersburg State University<country>Russian Federation</country></aff></aff-alternatives><pub-date pub-type="collection"><year>2026</year></pub-date><pub-date pub-type="epub"><day>06</day><month>04</month><year>2026</year></pub-date><volume>30</volume><issue>2</issue><fpage>293</fpage><lpage>298</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Бездворных И.В., Юдыцкий К.И., Черкасов Н.А., Самсонова А.А., Канапин А.А., 2026</copyright-statement><copyright-year>2026</copyright-year><copyright-holder xml:lang="ru">Бездворных И.В., Юдыцкий К.И., Черкасов Н.А., Самсонова А.А., Канапин А.А.</copyright-holder><copyright-holder xml:lang="en">Bezdvornykh I.V., Yuditskiy K.I., Cherkasov N.A., Samsonova A.A., Kanapin A.A.</copyright-holder><license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://vavilov.elpub.ru/jour/article/view/5043">https://vavilov.elpub.ru/jour/article/view/5043</self-uri><abstract><p>Развитие технологий высокопроизводительного секвенирования и методов анализа больших данных создает устойчивую потребность в повторном анализе накопленной в открытых репозиториях гетерогенной информации. Серьезной проблемой при этом остается преобладание свободного текстового описания биологических экспериментов, что затрудняет продуктивный поиск, систематизацию и дальнейшее использование соответствующих наборов данных. Прогресс в области искусственного интеллекта, особенно в развитии методов обработки естественного языка (natural language processing, NLP), обуславливает новые методологические возможности для эффективного решения этой задачи. Интегрированная система баз данных Entrez, поддерживаемая Национальным центром биотехнологической информации США (NCBI), предоставляет развитый и надежный доступ как к исходным данным секвенирования, так и к сопутствующей метаинформации, включающей детальное описание параметров экспериментов, через программный интерфейс (application programming interface, API). Это позволяет идентифицировать и загружать данные секвенирования и соответствующие им метаданные с описаниями экспериментов, используя поиск по ключевым словам и различным терминам, таким, например, как имена генов, в репозиториях; преобразовывать и систематизировать текстовые описания с применением современных NLP-методов и обеспечивать исследователям структурированную информацию для интеграции в локальные базы данных и форматированный перечень ссылок для загрузки исходных данных. Программный пакет Alembic предлагает комплексное решение для поиска и загрузки данных, автоматизируя все указанные этапы. Платформа использует клиент-серверную архитектуру и предназначенa для локальной установки. Для анализа биомедицинских текстов, сопровождающих данные секвенирования, в Alembic интегрированы современные алгоритмы искусственного интеллекта на основе архитектуры трансформеров. В частности, используется имеющаяся в открытом доступе платформа AIONER, обученная на данных репозитория PubMed с помощью модели PubMedBERT. Такой подход обеспечивает эффективное распознавание именованных сущностей (named entity recognition, NER) биомедицинского характера (гены, заболевания и др.), предоставляя пользователю структурированные результаты поиска по ключевым словам. Формируемый пакетом список дает возможность исследователю анализировать результаты, отбирать наиболее релевантные наборы данных и получать всю необходимую информацию (включая исходные данные) для создания локального репозитория, ориентированного на конкретную исследовательскую задачу. В отличие от имеющихся аналогов, Alembic является универсальным решением для интеграции данных из репозиториев открытого доступа и работы с разнородными типами данных секвенирования.</p></abstract><trans-abstract xml:lang="en"><p>The imperative to re-analyze existing public sequencing data is central to modern biology, driven by new hypotheses and advanced analytical methods. However, this effort is critically hampered by the profound heterogeneity of repository data, particularly the non-standardized, free-text descriptions of biological experiments. This lack of structural and semantic homogeneity prevents systematic search, integration, and comparative analysis, effectively locking away the full potential of accumulated datasets. Advances in Natural Language Processing (NLP) offer a pivotal pathway to overcome this bottleneck by transforming unstructured text into computable, homogeneous information. The integrated Entrez database system, maintained by the National Center for Biotechnology Information (NCBI), provides sophisticated programmatic access via an API to primary sequencing data and its associated metadata, including detailed experimental descriptions. This interface enables researchers to identify and retrieve relevant data through keyword searches, including those based on gene names, and to apply modern NLP techniques to transform textual metadata into structured information. The output is formatted data ready for integration into local databases, accompanied by a systematic list of links for downloading primary files. The Alembic software package offers a comprehensive and automated solution for the entire workflow. Designed as a locally deployable client-server system, Alembic incorporates state-of-the-art transformer-based AI algorithms for analyzing the biomedical text that accompanies sequencing data. Its core utilizes the openly available AIONER platform, which is built upon the PubMedBERT model trained on the PubMed repository, to ensure efficient and accurate recognition of biomedical named entities (e. g., genes, diseases). This provides users with structured and meaningful keyword search results. By delivering a curated list of datasets, Alembic streamlines the path from search to analysis. Researchers can efficiently identify high-value targets and obtain a complete package of metadata and primary data to construct a tailored local repository. This positions Alembic as a universal solution that overcomes the fragmented approach of existing tools, offering an integrated workflow for diverse public sequencing data.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>обработка естественных языков</kwd><kwd>анализ биомедицинских текстов</kwd><kwd>семантическая аннотация</kwd><kwd>гармонизация данных</kwd><kwd>интеграция омиксных даных</kwd></kwd-group><kwd-group xml:lang="en"><kwd>natural language processing</kwd><kwd>biomedical text mining</kwd><kwd>semantic annotation</kwd><kwd>data harmonization</kwd><kwd>omics data integration</kwd></kwd-group><funding-group xml:lang="en"><funding-statement>This work was supported by Russian Science Foundation grant No. 23-14-00134.</funding-statement></funding-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Aronson A.R., Lang F.M. An overview of MetaMap: historical perspective and recent advances. J Am Med Inform Assoc. 2010;17(3): 229-236. doi 10.1136/jamia.2009.002733</mixed-citation><mixed-citation xml:lang="en">Aronson A.R., Lang F.M. An overview of MetaMap: historical perspective and recent advances. J Am Med Inform Assoc. 2010;17(3): 229-236. doi 10.1136/jamia.2009.002733</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Chao H., Li Z., Chen D., Chen M. iSeq: an integrated tool to fetch public sequencing data. Bioinformatics. 2024;40(11):btae641. doi 10.1093/bioinformatics/btae641</mixed-citation><mixed-citation xml:lang="en">Chao H., Li Z., Chen D., Chen M. iSeq: an integrated tool to fetch public sequencing data. Bioinformatics. 2024;40(11):btae641. doi 10.1093/bioinformatics/btae641</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Chin W.L., Lassmann T. SampleExplorer: using language models to discover relevant transcriptome data. Bioinformatics. 2024;41(1): btae759. doi 10.1093/bioinformatics/btae759</mixed-citation><mixed-citation xml:lang="en">Chin W.L., Lassmann T. SampleExplorer: using language models to discover relevant transcriptome data. Bioinformatics. 2024;41(1): btae759. doi 10.1093/bioinformatics/btae759</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Devlin J., Chang M.W., Lee K., Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv. 2019. doi 10.48550/arXiv.1810.04805</mixed-citation><mixed-citation xml:lang="en">Devlin J., Chang M.W., Lee K., Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv. 2019. doi 10.48550/arXiv.1810.04805</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Lee J., Yoon W., Kim S., Kim D., Kim S., So C.H., Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020;36(4):1234-1240. doi 10.1093/bioinformatics/btz682</mixed-citation><mixed-citation xml:lang="en">Lee J., Yoon W., Kim S., Kim D., Kim S., So C.H., Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020;36(4):1234-1240. doi 10.1093/bioinformatics/btz682</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Luo L., Wei C.-H., Lai P.-T., Leaman R., Chen Q., Lu Z. AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning. Bioinformatics. 2023;39(5):btad310. doi 10.1093/bioinformatics/btad310</mixed-citation><mixed-citation xml:lang="en">Luo L., Wei C.-H., Lai P.-T., Leaman R., Chen Q., Lu Z. AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning. Bioinformatics. 2023;39(5):btad310. doi 10.1093/bioinformatics/btad310</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Neumann M., King D., Beltagy I., Ammar W. ScispaCy: fast and robust models for biomedical natural language processing. In: Proceedings of the 18th BioNLP Workshop and Shared Task. Association for Computational Linguistics, 2019;319-327. doi 10.18653/v1/W19-5034</mixed-citation><mixed-citation xml:lang="en">Neumann M., King D., Beltagy I., Ammar W. ScispaCy: fast and robust models for biomedical natural language processing. In: Proceedings of the 18th BioNLP Workshop and Shared Task. Association for Computational Linguistics, 2019;319-327. doi 10.18653/v1/W19-5034</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Sayers E. The E-utilities in-depth: parameters, syntax and more. In: Entrez Programming Utilities Help [Internet]. Bethesda (MD): National Center for Biotechnology Information (US), 2022. Available at: https://www.ncbi.nlm.nih.gov/books/NBK25499/. Accessed: Jul. 30, 2025</mixed-citation><mixed-citation xml:lang="en">Sayers E. The E-utilities in-depth: parameters, syntax and more. In: Entrez Programming Utilities Help [Internet]. Bethesda (MD): National Center for Biotechnology Information (US), 2022. Available at: https://www.ncbi.nlm.nih.gov/books/NBK25499/. Accessed: Jul. 30, 2025</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Wang X., Zhang Y., Ren X., Zhang Y., Zitnik M., Shang J., Langlotz C., Han J. Cross-type biomedical named entity recognition with deep multi-task learning. Bioinformatics. 2019;35(10):1745-1752. doi 10.1093/bioinformatics/bty869</mixed-citation><mixed-citation xml:lang="en">Wang X., Zhang Y., Ren X., Zhang Y., Zitnik M., Shang J., Langlotz C., Han J. Cross-type biomedical named entity recognition with deep multi-task learning. Bioinformatics. 2019;35(10):1745-1752. doi 10.1093/bioinformatics/bty869</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
