Матричная свертка спектра энергий множественного докинга для нейросетевого моделирования мультитаргетной фармакологической активности химических соединений
- Авторы: Васильев П.М.1,2, Голубева А.В.1,2, Перфильев М.А.1,2, Кочетков А.Н.2
-
Учреждения:
- Волгоградский государственный медицинский университет
- Научный центр инновационных лекарственных средств
- Выпуск: Том 21, № 4 (2024)
- Страницы: 54-59
- Раздел: Статьи
- Статья опубликована: 15.12.2024
- URL: https://innoscience.ru/2658-4514/article/view/646406
- DOI: https://doi.org/10.19163/2658-4514-2024-21-4-54-59
- ID: 646406
Цитировать
Полный текст
Аннотация
Изложен алгоритм матричной свертки спектра энергий множественного докинга лигандов в релевантные белки-мишени. На примере анксиолитической активности выполнена матричная свертка спектра энергий мультитаргетного множественного докинга в 22 сверточных переменных. Методами однофакторного дисперсионного анализа, дискриминантного анализа и нейросетевого анализа показана высокая статистическая достоверность использования полученных сверточных переменных для оценки интегральной мультитаргетной аффинности лигандов к совокупности релевантных биомишеней. Как итог, разработан новый метод построения сверточных нейронных сетей для поиска in silico фармакологически активных веществ на основе матричной свертки спектров энергий мультитаргетного множественного докинга.
Полный текст
Методы машинного обучения и искусственных нейронных сетей широко применяются мировым научным сообществом в поиске фармакологически активных веществ [1]. При этом обычно используются общепринятые архитектуры нейронных сетей, в частности, сверточные нейронные сети, разработанные для распознавания зрительных образов [2].
Однако при нейросетевом моделировании фармакологических соединений физический смысл и внутренняя структура химико-биологических данных значительно отличаются от таковых для изображений. В связи с этим создание новых методов построения нейросетевых моделей, описывающих зависимости между фармакологической активностью и структурой химических соединений, является актуальной и научно востребованной задачей.
В наших работах [3–5] было показано, что использование метода множественного докинга для построения нейросетевых моделей зависимостей между системными видами фармакологической активности и спектром энергий множественного докинга химических соединений в релевантные биомишени позволяет создавать высокоточные и статистически очень достоверные прогнозные модели.
Следует отметить, что обработка спектров энергий мультитаргетного множественного докинга, вычисленных для совокупности нескольких биомишеней, значительно увеличивает размерность признакового пространства, и поэтому для использования подобных данных в нейросетевом моделировании необходимо разработать валидные методы свертки.
ЦЕЛЬ РАБОТЫ
Доказательство методами многомерной статистики и нейросетевого моделирования валидности использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.
МЕТОДИКА ИССЛЕДОВАНИЯ
Основная гипотеза. Совокупность значений энергии докинга, рассчитанная для множества пространств нескольких релевантных биомишеней и обработанная с помощью предлагаемой процедуры матричной свертки, позволяет адекватно моделировать воздействие множества молекул лиганда на совокупность нескольких белков-мишеней в целом и с высокой статистической достоверностью отражает системную мультитаргетную фармакологическую активность химических соединений, что позволяет с высокой точностью прогнозировать уровень этой активности.
Задачи исследования. Для достижения поставленной цели необходимо было решить следующие задачи:
- Разработать алгоритм матричной свертки спектра энергий мультитаргетного множественного докинга.
- Сформировать верифицированную обучающую выборку по уровню активности и спектрам энергий мультитаргетного множественного докинга известных соединений, испытанных на модельную фармакологическую активность.
- Провести матричную свертку спектров энергий мультитаргетного множественного докинга.
- Выполнить однофакторный дисперсионный анализ, устанавливающий статистическую значимость уровня модельной активности известных соединений от параметров матричной свертки спектров энергий мультитаргетного множественного докинга.
- Провести с помощью дискриминантного анализа оценку точности прогноза активности известных соединений с использованием в качестве независимых переменных параметров матричной свертки спектров энергий мультитаргетного множественного докинга.
- Выполнить обучение нейронных сетей на указанных сверточных переменных и для лучшей построенной нейросети произвести оценку точности прогноза модельной фармакологической активности.
Алгоритм матричной свертки мультитаргетного спектра энергий множественного докинга
Алгоритм матричной свертки основан на построении матрицы попарных расстояний между значениями переменных и последующем вычислении определителя полученной матрицы. Достоинством алгоритма является отсутствие ограничений на число сворачиваемых переменных, так как он основан на геометрическом подходе. Для одной биомишени и одного соединения k-спектр рассчитанных в результате множественного докинга 135 значений ΔE можно рассматривать как координаты точки в многомерном пространстве. В соответствии с этим, матрица расстояний Хэмминга между парами значений переменных i и j может быть определена следующим образом:
, (1)
где Dkij – расстояние Хэмминга между энергиями ΔEi и ΔEj, i≠j;
ΔEik – значение энергии i для соединения k, k=1...N;
ΔEjk – значение энергии j для соединения k, k=1...N;
M – число сворачиваемых значений энергии, равно 135;
N – число соединений.
Для соединения k значение свертки 135 энергий множественного докинга для одной биомишени вычисляется как определитель матрицы Dk.
. (2)
В результате матричной свертки мультитаргетный множественный аффинитет каждого соединения в отношении L-релевантных биомишеней будет представлен L-сверточными переменными.
По смыслу, определитель матрицы равен ориентированному объему многомерного параллелепипеда, заданного векторами в виде столбцов матрицы. В соответствии с формулой (1), элементы матрицы расстояний Dk характеризуют вариативность значений множественного докинга ΔE. Таким образом, если соединение k связывается со всеми пространствами данного белка-мишени с примерно одинаковой интенсивностью, показатель матричной свертки Wk будет близок к нулю. Если же соединение k связывается c пространствами данного белка-мишени с разной интенсивностью, показатель матричной свертки Wk будет принимать тем бóльшие значения, чем больше различия в значениях ΔE. Фактически это означает, что в этом белке имеются «особые» области связывания, с которыми рассматриваемое соединение взаимодействует с гораздо бóльшей интенсивностью, чем с остальными.
Описанный алгоритм был реализован на языке Borland Delphi в виде программы MatrConv v06.11.24.
Формирование обучающей выборки
В качестве модельной фармакологической активности была выбрана анксиолитическая активность, системный характер которой определяется мультитаргетным воздействием соединений на достаточно большое число биомишеней. Исходная верифицированная обучающая выборка по анксиолитической активности и спектрам энергий мультитаргетного множественного докинга 537 известных соединений в 22 релевантных белка-мишени была сформирована ранее в работе [5] и включала 457 активных и 80 неактивных соединений. Каждое соединение характеризовалось 135·22 = 2 970 значениями ΔE.
Матричной свертке было подвергнуто 135·22·537 = 1 594 890 значений ΔE, в результате чего была получена матрица сверточных параметров спектров энергий мультитаргетного множественного докинга размером 22 переменных на 537 наблюдений.
Однофакторный дисперсионный анализ
Для показателя наличия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен однофакторный дисперсионный анализ (ANOVA) [7] зависимости указанного фактора от многомерной матрицы значений сверточных переменных спектров энергий мультитаргетного множественного докинга, полученных в результате матричной свертки. Рассчитаны величины критерия лямбда Уилкса Λ, соответствующего ему критерия Фишера F, и определена статистическая достоверность p используемых сверточных переменных.
Дискриминантный анализ
С целью оценки точности прогноза наличия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен дискриминантный анализ [8], в котором независимыми переменными также служили показатели, полученные в результате матричной свертки спектров энергий мультитаргетного множественного докинга. По результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и, по данным ROC-анализа, площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.
Нейросетевое моделирование
Выполняли с помощью программы Statis-tica 7 [6]. В качестве архитектуры нейронной сети был выбран двухслойный перцептрон MLP k‑m‑2 с узким горлом. Здесь k – число входных нейронов, в данном случае 22; m – число скрытых нейронов, устанавливается программой от 3 до 21, поскольку 2 < m < k. При обучении нейросетей для скрытого слоя использовались активационные функции Identity, Logictic, Tanh, Exponential, выбор которых производился программой.
Для выходных нейронов использовалась активационная функция Softmax, которая является наиболее эффективной при обучении классификационных нейронных сетей [10]. При формировании обучающих и тестовых подвыборок использовался метод Монте-Карло.
С целью достижения наилучшего результата обучения, число моделируемых сетей было установлено в 4 000, из которых программой автоматически отбирались 400. После окончания обучения из 400 лучших отобранных программой нейросетей по совокупности характеристик точности вручную отбирали одну наилучшую. Как и в случае дискриминантного анализа, для лучшей построенной нейросети по результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и по данным ROC-анализа – площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ
Результаты однофакторного дисперсионного анализа анксиолитической активности показывают, что совокупность параметров матричной свертки спектров энергий мультитаргетного множественного докинга является статистически высоко достоверной интегральной метрикой аффинности химических соединений к релевантным белкам-мишеням.
Вычисленные критерий лямбда Уилкса Λ = 0,914, соответствующий ему критерий Фишера F(22,514) = 2,202 и статистическая достоверность используемых сверточных переменных p = 1,38·10-3 доказывают, что предлагаемый сверточный метод можно применять в поиске in silico фармакологически активных соединений.
В таблице приведено сравнение результатов прогноза анксиолитической активности методом дискриминантного анализа и с помощью сверточной нейросетевой модели.
Точность прогноза анксиолитической активности с помощью дискриминантного анализа и с использованием сверточной нейросетевой модели
Показательточности прогноза | Значение для метода прогноза | |
Дискриминантный анализ | Нейронная сеть1 | |
Acc, %2 | 84,0 | 87,9 |
AUCROC, %3 | 62,9 | 65,8 |
z4 | 4,21 | 5,16 |
p5 | 1,26·10-5 | 1,22·10-7 |
Примечание.
1 Архитектура лучшей нейронной сети MLP 22-6-2 (Exponential, Softmax).
2 Общая точность прогноза на объединенной обучающей выборке.
3 Площадь под кривой по данным ROC-анализа.
4 Биномиальный критерий [9].
5 Статистическая достоверность точности прогноза по биномиальному критерию [9].
Показательно, что по результатам как дискриминантного, так и нейросетевого анализа совокупность параметров матричной свертки спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным способом представления интегральной аффинности химических соединений к релевантным белкам-мишеням при прогнозе фармакологической активности. В дискриминантном анализе статистическая достоверность точности прогноза составила p = 1,26·10-5, а при нейросетевом моделировании статистическая достоверность точности прогноза составила p = 1,22·10-7.
Приведенные в таблице результаты дискриминантного и нейросетевого анализов полностью согласуются с результатами дисперсионного анализа и подтверждают вывод о том, что предлагаемый метод матричной свертки спектров энергий мультитаргетного множественного докинга химических соединений к релевантным белкам-мишеням можно эффективно применять в поиске in silico фармакологически активных веществ. Таким образом, на примере анксиолитической активности, с использованием двух методов многомерной статистики – однофакторного дисперсионного анализа и дискриминантного анализа, и технологии искусственных нейронных сетей, доказано, что матричная свертка спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным валидным методом оценки интегральной аффинности химических соединений к совокупности фармакологически релевантных биомишеней.
ЗАКЛЮЧЕНИЕ
- Разработан алгоритм матричной свертки спектра энергий множественного докинга лигандов в релевантные белки-мишени.
- Методами многомерной статистики и нейросетевого моделирования доказана валидность использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.
- Как итог создан новый метод построения сверточных нейронных сетей для поиска in silico фармакологически активных веществ на основе матричной свертки спектров энергий мультитаргетного множественного докинга.
Работа выполнена в рамках государственного задания Министерства здравоохранения Российской Федерации № 23022400009-9 «Разработка методологии компьютерного поиска мультитаргетных фармакологически активных соединений на основе множественного докинга и технологии сверточных нейронных сетей различной архитектуры».
Об авторах
Павел Михайлович Васильев
Волгоградский государственный медицинский университет; Научный центр инновационных лекарственных средств
Автор, ответственный за переписку.
Email: pvassiliev@mail.ru
ORCID iD: 0000-0002-8188-5052
доктор биологических наук, с.н.с. ВАК (доцент), заведующий лабораторией информационных технологий в фармакологии и компьютерного моделирования лекарств, профессор кафедры фармакологии и биоинформатики
Россия, Волгоград; ВолгоградАрина Владимировна Голубева
Волгоградский государственный медицинский университет; Научный центр инновационных лекарственных средств
Email: arina_arina_golubeva@mail.ru
ORCID iD: 0000-0001-8268-8811
младший научный сотрудник лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств, ассистент кафедры фармакологии и биоинформатики
Россия, Волгоград; ВолгоградМаксим Алексеевич Перфильев
Волгоградский государственный медицинский университет; Научный центр инновационных лекарственных средств
Email: maxim.firu@yandex.com
ORCID iD: 0000-0002-5326-3299
младший научный сотрудник лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств, ассистент кафедры фармакологии и биоинформатики
Россия, Волгоград; ВолгоградАндрей Николаевич Кочетков
Научный центр инновационных лекарственных средств
Email: akocha@mail.ru
ORCID iD: 0000-0003-3077-1837
системный администратор, инженер-программист лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств
Россия, ВолгоградСписок литературы
- Sarkar C., Das B., Rawat V. S. et al. Artificial Intelligence and Machine Learning Technology Driven Modern Drug Discovery and Development. International Journal Molecular Sciences. 2023;24(3):2026.
- Leijnen S., Van Veen F. The Neural Network Zoo. Proceedings. 2020;47(4):9.
- Васильев П. М., Кочетков А. Н., Спасов А. А., Перфильев М. А. Спектр энергий множественного докинга как многомерная метрика аффинности химических соединений к фармакологически релевантным биомишеням. Волгоградский научно-медицинский журнал. 2021;3:57–61.
- Васильев П. М., Перфильев М. А., Кочетков А. Н. Нейросетевое моделирование зависимости RAGE-ингибирующей активности химических соединений от спектра энергий множественного докинга. Вестник Волгоградского государственного медицинского университета. 2023;20(4): 157–161.
- Vassiliev P. M., Perfilev М. A., Golubeva A. V. et al. Multi-target neural network model of anxiolytic activity of chemical compounds based on correlation convolution of energy spectra of multiple docking. XXX symposium "Bioinformatics and computer-aided drug discovery": Proceedings book. Moscow: Institute of Biomedical Chemistry. 2024. 46 р.
- Hilbe J. M. Statistica 7: an overview. The American Statistician. 2007;61(1):91–94.
- Аренс Х., Лёйтер Ю. Многомерный дисперсионный анализ. Mосква: Финансы и статистика, 1985. 230 c.
- Ким Дж.-О., Мьюллер Ч. У., Клекка У. Р. и др. Факторный, дискриминантный и кластерный анализ. Москва: Финансы и статистика, 1989. 215 с.
- Глотов Н. В., Животовский Л. А., Хованов Н. В., Хромов-Борисов Н. Н. Биометрия. Ленинград: Изд-во Ленингр. ун-та, 1982. 264 с.
- Dubin U. Cross-Entropy Method: Theory with Applications. Chisinau (Moldova): LAMBERT Academic Publishing, 2013. 148 p.
Дополнительные файлы
