Preview

Вавиловский журнал генетики и селекции

Расширенный поиск

Метод главных компонент и его обобщения для последовательности любого типа (PCA-Seq)

https://doi.org/10.18699/VJ19.584

Полный текст:

Аннотация

В 1940-х гг. К. Карунен и М. Лоев предложили метод обработки одномерного числового временного ряда через его преобразование в многомерный путем сдвига несколько раз подряд и разложения на несколько ортогональных временных рядов методом главных компонент (PCA). Предложенный метод ранее независимо возникал и применялся на практике под разными названиями (EOF, SSA, Гусеница и т. д.). Оказалось, что он универсальный, применим к любому временному ряду и, не требуя предположения стационарности, автоматически разлагает его на тренд, циклические составляющие и шум. В наши дни чаще всего используется название SSA (сингулярный спектральный анализ). В начале 1980-х гг. Ф. Такенс показал, что для динамической системы сдвиги только одной наблюдаемой переменной позволяют построить аттрактор всей системы, и тем самым подвел под SSA мощную теоретическую базу. Тогда же выяснилась практическая польза фазовых портретов, что было применено, в частности, при анализе и прогнозе динамики численности животных. В настоящей работе предлагается распространить SSA на одномерную последовательность элементов любого типа, включая числа, символы, фигуры и т. д., и в качестве частного случая – на молекулярную последовательность. Технически проблема решается практически тем же алгоритмом, что и SSA. Последовательность режется скользящим окном на фрагменты заданной длины. Между всеми фрагментами вычисляется матрица евклидовых расстояний. Это всегда возможно. Например, квадратный корень из p-дистанции (дистанции Хэмминга) является евклидовым расстоянием. Для полученной матрицы методом главных координат (PCo) вычисляются главные компоненты. Вместо расстояний можно использовать любые индексы сходства/различия и применить методы многомерного шкалирования (MDS). В итоге все равно будут получены главные компоненты в некотором евклидовом пространстве. Мы назвали этот метод PCA-Seq. Это, безусловно, разведочный метод, как и его частный случай SSA. Для любой последовательности, в том числе молекулярной, PCA-Seq без всяких дополнительных предположений позволяет получить ее главные компоненты в числовом виде и визуализировать их в виде графиков и фазовых портретов. Многолетний опыт применения SSA для числовых данных дает все основания полагать, что PCA-Seq окажется не менее полезным при анализе нечисловых данных, особенно при выдвижении гипотез. PCA-Seq реализован в свободно распространяемом пакете Jacobi 4 (http://jacobi4.ru/).

Об авторах

В. М. Ефимов
Федеральный исследовательский центр Институт цитологии и генетики Сибирского отделения Российской академии наук; Институт систематики и экологии животных Сибирского отделения Российской академии наук; Новосибирский государственный университет; Томский государственный университет
Россия
Новосибирск


К. В. Ефимов
Московский физико-технический институт (государственный университет)
Россия
Москва


В. Ю. Ковалева
Институт систематики и экологии животных Сибирского отделения Российской академии наук
Россия
Новосибирск


Список литературы

1. Efimov V.M., Galaktionov Y.K. On the possibility of predicting cyclic changes in the abundance of mammals. Zhurnal Obshchey Biologii = Journal of General Biology. 1983;3:343-352. (in Russian)

2. Efimov V.M., Galaktionov Y.K., Galaktionova T.A. Reconstruction and prognosis of water vole population dynamics on the basis of tularemia morbidity among Novosibirsk oblast residents. Doklady. Biological Sciences. 2003;388(1/6):59-61.

3. Efimov V.M., Galaktionov Y.K., Shushpanova N.F. Analysis and Prediction of Time Series by the Principal Component Method. Novosibirsk: Nauka Publ., 1988. (in Russian)

4. Efimov V.M., Kovaleva V.Y., Efimov K.V. Principal Component Analysis for any type Sequences (PCA-Seq). In: Mathematical Modeling and High-Performance Computing in Bioinformatics, Biomedicine and Biotechnology (MM-HPC-BBB-2018): Proc. of the 3rd Int. Symp. Novosibirsk, 21–24 Aug 2018. Novosibirsk, 2018;20.

5. Efimov V.M., Melchakova M.A., Kovaleva V.Y. Geometric properties of evolutionary distances. Vavilovskii Zhurnal Genetiki i Selektsii = Vavilov Journal of Genetics and Breeding. 2013;17(4/1):714-723. (in Russian)

6. Golyandina N., Korobeynikov A., Zhigljavsky A. Singular Spectrum Analysis with R. (Ser. Use R!) Berlin; Heidelberg: Springer Verlag, 2018.

7. Golyandina N., Nekrutkin V., Zhigljavsky A.A. Analysis of Time Series Structure: SSA and Related Techniques. Chapman and Hall/CRC, 2001.

8. Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for Time Series. Springer Science & Business Media, 2013.

9. Gower J.C. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika. 1966;53(3/4):325-338.

10. Jolliffe I.T., Cadima J. Principal component analysis: a review and recent developments. Phil. Trans. R. Soc. A. 2016;374:20150202.

11. Karhunen K. Über lineare methoden in der wahrscheinlich-keitsrechnung. Ann. Acad. Sci. Fennicea. 1947;Ser. A137.

12. Loève M. Fonctions Aléatoires de second order. In: Lévy P. (Ed.). Processus Stochastiques et Movement Brownien. Paris: Hermann, 1948.

13. Polunin D.A., Shtaiger I.A., Efimov V.M. Development of software system JACOBI 4 for multivariate analysis of microarray data. Vestnik Novosibirskogo Gosudarstvennogo Universiteta. Seriya Informatsyonnye Tekhnologii = Vestnik NSU. Information Technology. 2014;12(2):90-98. (in Russian)

14. Takens F. Detecting strange attractors in turbulence. In: Dynamical Systems and Turbulence. Warwick, 1980. Berlin; Heidelberg: Springer, 1981;366-381.


Просмотров: 26


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2500-0462 (Print)
ISSN 2500-3259 (Online)