Ключевые слова: глубинные нейронные сети, фармакология, машинное обучение, большие данные
Машинное обучение — один из разделов искусственного интеллекта, который связан с компьютерами, основной смысл которого — способность приобретения знаний из данных, так, чтобы явное программирование не было необходимо для выполнения задачи. Алгоритмы данного метода позволяют компьютерам извлекать информацию и выводить образцы из записанных данных, таким образом, чтобы компьютеры могли учиться из предыдущих примеров делать хорошие предсказания о новых. Алгоритмы машинного обучения были успешно применены ко множеству вычислительных задач во многих областях. Фармакология и биоинформатика это «горячие темы» для этих методов из-за сложности задач. Например, в биоинформатике, методы применяются, чтобы предсказать структуру белка и провести геномный анализ данных. В случае фармакологии эти методы используются, чтобы обнаружить, спроектировать и расположить по приоритетам биологически активные комплексы, которые могут быть кандидатами на новые лекарства. Кроме того, машинное обучение может быть полезным, чтобы проанализировать клинические исследования этих комплексов, оптимизировать формы и оценить качество препарата.
У развития препарата есть различные фазы; в первом шаге отбор рядов молекулярного представления или дескрипторов. Эти дескрипторы представляют соответствующие свойства целевых молекул. Используя метрику или схему выигрышей закодированные молекулы сравниваются друг с другом. Затем, набор данных обычно делится на три части: набор данных обучения, набор проверки и набор тестов. Заключительный шаг включает использование методов машинного обучения, чтобы извлечь признаки цели, которые могут помочь дифференцировать активные комплексы от бездействующих. Количественные соотношения структура-активность (QSAR) используются, чтобы найти отношения между структурой комплекса и его деятельностью, как с биологической, так и с физико-химической. Есть схожие математические модели, которые ищут другие отношения, такие как количественные соотношение структур-свойств (QSPR), количественные соотношения структура-токсичность — (QSTR) или количественные соотношения структура-фармакокинетика (QSPkR).
Крайне важно выбирать правильные описатели для извлечения ценных признаков из входных данных. Точность этих данных и статистические используемые инструменты, также актуальны в процессе разработки. За прошлые десятилетия методы машинного обучения, используемые в фармацевтической продукции и приложениях биоинформатики были только с несколькими слоями преобразований признаков. Некоторые наиболее используемые алгоритмы: принципиальный анализ компонента, объединение в кластеры k-средств, деревья решений, векторные машины поддержки (SVM) и искусственные нейронные сети (ANN).
Искусственные нейронные сети применялись в фармакологии и биоинформатике более двух десятилетий. Исторически, первый отчет о их применении в этих областях был опубликован Цянем и Сейновским в 1988. Они использовали нейросеть для предсказания белка вторичной структуры. В 1990 Аоямма с коллегами представил первый отчет об их применении к QSAR, а уже в 1993, Викель и Доу раскрыли применение нейросетей в описании шага сокращения QSAR. Примером их эффективного применения был набор данных ВИЧ-1 обратного ингибитора транскриптазы в дескрипторном процессе выбора. Ковалишин с коллегами разработал метод сокращения на основе искусственных нейросетей, обученного с методом изучения каскадной корреляции в 1998. Это лишь некоторые примеры ранних применений искусственных нейронных сетей, однако огромный прогресс был сделан после применения машинного обучения.
Хотя нейросети вскоре признали полезными инструментами для фармакологии и биоинформатики, векторные машины поддержки и случайный лес достигли больших успехов, доминируя в области до недавнего времени. Причинами ограниченного применения нейросетей были: «дефицит» данных, трудность понимания признаков, их извлечение, и вычислительная стоимость сетевого обучением. За прошлое десятилетие глубинные нейронные сети стали современными алгоритмами машинного обучения в распознавании речи, машинном зрении, обработке естественного языка и многих других задачах. Это было достигнуто продвижением в Больших Данных, Глубинном обучении и увеличением возможностей обработки процессора, особенно в среде графических процессоров.
Термин Большие Данные можно принимать буквально, так как 90 % данных в мире сегодня были созданы за одни только прошлые три года. Этот взрыв данных привел к пересмотру методик, которым проводится исследование, заставляя приобретать навыки использования Больших Данных при решении сложных проблем, связанных с научными открытиями, биомедицинскими исследованиями, образованием, здоровьем, национальной безопасностью и в других сферах. В геномной медицине примером можно послужить то факт, что получение первого упорядоченного генома человека стоило почти 3 миллиарда долларов США, сегодня это может быть сделано меньше чем за 1000 долларов США. Многократные последовательности белка могут быть проанализированы, чтобы определить эволюционные связи и предсказать молекулярные структуры. В Медицине и Биоинформатике, существуют многочисленные возможности максимально использовать огромный доступный объем данных. Некоторые проблемы включают разработку более безопасных лекарств, уменьшая затраты на клинические испытания, а также поиск новых альтернатив, таких как новые антибиотики.
Глубинное обучение — новая сфера в исследованиях машинного обучения, которые вдохновлены мозгом и абстракциями данных созданных многоуровневой обработкой. Алгоритмы глубинного обучения позволяют создавать абстракции высокого уровня из данных и тем самым, реализовывает возможность автоматического извлечения признаков и/или для классификации паттернов. Ключом к глубинному обучению являются безнадзорные методы обучения для получения наилучших результатов от некатегоризированных объемов данных. Глубинные нейронные сети прямого распространения (DFNN), Глубокая сеть доверия (DBN), глубинные сети автокодировщиков, Глубинная машина Больцмана (DBM), глубинные свёрточные нейронные сети (DCNN) и глубинные рекуррентные нейронные сети (DRNN) — примеры искусственных нейронных сетей с глубинным обучением. Они были применены к областям, таким как машинное зрение, обработка естественного языка автоматического или естественного языка, где они показали прекрасный результат. Примеры результатов в таблице 1.
Таблица 1
Область (год) |
Название продукта |
Распознание рукописных текстов (2009) |
MNIST, Arabic HWX (IDSIA) |
Объемное сегментирование мозговых образов (2009) |
Connectomics (IDSIA, MIT) |
Оптическое распознавание символов в окружающей среде (2011) |
StreetView House Numbers (NYU) |
Распознавание знаков ПДД (2011) |
GTSRB competition (IDSIA, NYU) |
Распознавание действий человека (2011) |
Hollywood II dataset (Stanford) |
Анализ сцен (2012) |
Stanford bgd, SiftFlow, Barcelona datasets (NYU) |
Распознавание речи (2012) |
Acoustic modeling (IBM and Google) |
Распознавание азиатского рукописного текста (2013) |
ICDAR competition (IDSIA) |
Обнаружение пешеходов (2013) |
INRIA data |
Игра в Го (2016) |
AlphaGo vs Human World Champion (Google DeepMind Technologies) |
К примеру, в области фармакологии, команда во главе с Джорджем Далем, из Hinton State Laboratory Institute, выиграла соревнование Merck Molecular Activity, организованное Kaggle в 2012, указав на высокий потенциал глубинного обучения в дизайне препарата, чем привлекла внимание сообщества фармакологии. Наборы данных соревнования включали целевое и ADME (поглощение, распределение, метаболизм и выделение) действия. Каждая молекула представлялась списком признаков, т. е., описателей в номенклатуре QSAR. У глубинной сети автокодировщиков, которая была представлена есть три скрытых слоя, каждый слой, имеющий 2000 нейронов, таким образом, у сети существует более чем 24 миллиона настраиваемых весов. Во избежание сверхсоотвествия было использовано порождающее безнадзорное предварительное обучение и процедура выброса.
Однако, мелкий масштаб набора данных соревнования, 11,000 описателей, 164,000 комплексов, и 15 целевых препаратов, не позволили оценить ценность глубинного обучения в целевом прогнозе препарата. В 2014 Антертинер с коллегами проанализировал работу в большем наборе данных, подобном внутренним данным фармацевтических компаний. В базе данных ChEMBL есть 13 миллионов составных описателей, 1.3 миллиона комплексов и 5000 целевых препаратов. Глубинная сеть автокодировщиков сравнивалась с семью методами целевого прогноза, включая двух коммерческих предсказателей, трех предсказателей, развернутых фармацевтическими компаниями и методами машинного обучения, которые смогли применить к этому набору данных. Их нейросеть выиграла у всех других методов и превзошла порог, после которого возможен виртуальный скрининг. Данное соревнование показало потенциал глубинного обучения, его способность стать стандартным инструментом в промышленном дизайне препарата. Команда Антертинера выиграла в задаче проблемы данных Tox21 в “Токсикологии в 21-м веке” инициатива, проявленная агентствами Соединенных Штатов (NIH, EPA и FDA). Цель этой проблемы состояла в том, чтобы оценить исполнение вычислительных методов в предсказании токсичности химических соединений. DAEN, используемый командой Антертинера, выиграл у всех других методов, участвовавших в соревновании. В Таблице 2 показано что этот метод наиболее эффективен по ROC-кривой (AUC). Последняя колонка показывает p-значение повторяющегося критерия Уилкинсона с альтернативной гипотезой, что у DAEN есть в среднем больший AUC.
Таблица 2
Метод |
AUC |
p-значение |
Глубинная сеть автокодировщиков |
0.830 |
– |
Векторная машина поддержки |
0.816 |
1.0 × |
Двойная ядерная дифференциация |
0.803 |
1.9 × |
Логистическая регрессия |
0.796 |
6.0 × |
k-ближайший сосед |
0.775 |
2.5 × |
Pipeline Pilot Bayesian Classifier |
0.755 |
5.4 × |
Метод окнон Парзен-Розенблатта |
0.730 |
1.8 × |
Similarity Ensemble Approach (SEA) |
0.699 |
1.8 × |
В настоящее время как научные, так и экономические интересы привели к созданию многочисленных НИОКР продолжающих улучшать глубинные нейронные сети. Дополнительным толчком для развития таких сетей может быть развитие новой архитектуры аппаратных средств. К примеру, разработка MIT — нейроморфические чипы дают прекрасную возможность уменьшить потребление энергии и увеличить возможности нейросетей, при этом имя возможность обрабатывать обширный объем информации, произведенной Интернетом Вещей. Кроме того, использование нейроморфических чипов может привести к созданию крупномасштабной системы, которая попыталась бы представлять Сильный Искусственный Интеллект взамен текущего Слабого Искусственного Интеллекта.
Литература:
1. Gawehn E., Hiss J. A., Schneider G. Deep learning in drug discovery // molecular informatics. — 2016. — № 35. — С. 3–14.
2. Wesolowski M., Suchacz B. Artificial neural networks: Theoretical background and pharmaceutical applications: A review // journal of aoac international. — 2012. — № 95. — С. 652–668.
3. Qian N., Sejnowski T. J. Predicting the secondary structure of globular proteins using neural network models // Journal of Molecular Biology. — 1988. — № 202. — С. 865–884.
4. Deep learning as an opportunity in virtual screening // Deep Learning and Representation Learning Workshop: NIPS 2014. URL: http://www.dlworkshop.org/23.pdf?attredirects=0 (дата обращения: 16.06.2017).