Анализ данных генной экспрессии требует подходящих инструментов для хранения и использования, соответствующих объемом данных; одной из последних и полезных технологий является технология микрочипов, которые позволяют хранить данные в единой матрице. В настоящее время данная технология может генерировать огромное количество информации о генной экспрессии. Эта информация должна быть статистически обработана и проанализирована для выявления тех генов, которые полезны для диагностики и прогноза конкретных заболеваний. Мы рассмотрим возможность применения игровых теоретических инструментов для анализа данных экспрессии генов, аксиоматически охарактеризуем эти инструменты, используя свойства с генетической интерпретацией.
Ключевые слова: коалиционная игра, значение Шепли, MSC-вектор, экспрессия гена, патогенез.
Как известно, белки являются структурными составляющими клеток и тканей. Большинство генов содержат информацию для изготовления конкретного белка. Она кодируется в генах с помощью дезоксирибонуклеиновой кислоты (ДНК). С помощью технологии микрочипов можно выяснить роль отдельных генов или групп генов в появлении болезни.
В статье [1] V. Fragnelli и S. Moretti рассматривают игру с генами для классификации образцов в определенные классы. В некоторых численных примерах авторы используют вектор Шепли для вычисления генов с высоким влиянием в вычислении образцов.
В статье [2] дана аксиоматическая характеристика значения Шепли с помощью свойств, подходящих для генетической интерпретации этого индекса.
Математическая постановка
Пусть G= {1, 2,..., n} набор из n генов, SR={1, 2,..., r} множество образцов клеток из здоровых тканей, и SD={1, 2,..., d} множество образцов из тканей, представляющих интерес. Цель состоит в том, чтобы сопоставить каждому образцу jSD∪SR профайл экспрессии G. Набор данных представлен в форме двух матриц экспрессии: и .
Характеристическая функция будет вычисляться по формуле:v (T) = , где |SD|-мощность множества больных образцов, а |Q(T)|- мощность множества:
Вектор , где будем называть анормальным профайлом экспрессии. В виде отображения m выразим наивный дискриминантный метод:
Возможные методы решения
В настоящее время для данной задачи существует несколько возможных методов решения, мы рассмотри два из них.
Одно из самых популярных решений — вектор Шепли. Для подсчета вектора необходимо ввести понятие личного вклада каждого гена в образование генотипа, определяемого формулой: m(v, S)= v(S)-v(S\{i}). Полученные нами данные позволяют ввести вектор Шепли:
MSC-вектор[3]— принцип оптимальности, определяющий выигрыш игрока по следующей формуле:
и
Аксиоматическая характеристика возможных методов решения спомощью свойств, подходящих для генетической интерпретации.
Здесь мы рассмотрим некоторые интересные свойства для решений игр с микрочипами, которые связаны с концепцией партнерства генов. Пусть F: MN→ IRN — решение на классе игр с микрочипами.
Свойство 1. Пусть (N,v) ∈ Решение F имеет Рациональность Партнерства (Partnership Rationality), если для каждого S ∈ \ {∅} такого, что S является партнерством генов в игре (N,v).
Свойство 2. Пусть (N,v) ∈ Решение F обладает свойством вероятности партнерства (Partnership Feasibility), если для каждого такого S ∈ \ {∅}, что S является партнерством генов в игре (N,v).
Свойство 3. Пусть . Решение F обладает свойством равного деления (Equal Splitting), если .
Свойство 5. Пусть v, w ∈ . Решение F, удовлетворяет свойству нулевого игрока (Null Player), если для каждого нулевого игрока i ∈ N: Fi(v) = 0.
В статье [4] представлено доказательство утверждения, что значение Шепли удовлетворяет свойствам PM, PR, PF. В этой же статье можно найти доказательство следующей теоремы:
Теорема 1. Пусть дано конечное множество N. Значение Шепли на классе MN игр с микрочипами — это уникальный индекс релевантности, который удовлетворяет PR, PF, PM, ES и NP.
Таким образом, можем сделать вывод, что кооперативная теория игр может применяться для микрочиповых игр, например вектор Шепли и индекс Банзафа.
Далее было проверено, удовлетворяют ли MSC-вектор свойствам PR,PF,ES.
Рассмотрим MSC-вектор.
А) Для каждого SS- максимальное партнерство по v. Так как v- монотонна и MSC- вектор находится в C- ядре, то справедлива запись:
Так как MSC-вектор является одноточечным, то это решение эффективно. А из этого следует: значит, аксиома PF выполняется.
Б) Исходя из того, что это вектор, можем умножить на скаляр. Из чего следует однородность, а значит, справедлива запись: Для MSC-вектора свойство ES выполняется.
В) Для доказательства удовлетворения MSC- вектора аксиоме PR, вспомним, что v- монотонна и MSC-вектор принадлежит C-ядру, а значит, верна запись: Таким образом, для MSC- вектора выполняется аксиома PR.
Результаты
Рассмотрим применение теории кооперативных игр для анализа информации, полученной с помощью технологии микрочипов, о пациентах с шизофренией. Ученые из Великобритании собрали данные микрочипов из тканей верхней височной коры у больных и контрольных пациентов. Данные по экспрессии генов можно посмотреть в [5]. Рассмотрим две таблицы экспрессии генов, где по строкам находятся гены, по столбцам образцы: в первой таблице образцы, взятые у больных с шизофренией, во второй из здорового биологического материала. Имеется 39 образцов, из которых 22 больных шизофренией и 17 здоровых. Матрица, обрабатывающаяся в программе, строится при помощи наивного дискриминантного метода. Имеется 39 образцов, из которых 22 больных шизофренией и 17 здоровых.
Рис. 1. Образцы, взятые у больных с шизофренией
Рис. 2. Образцы, взятые у контрольных пациентов
Рис. 3. Матрица анормальной экспрессии
На входе программа получает матрицу анормальной экспрессии и количество рассматриваемых генов. На выходе получаем названия генов по убыванию их индекса значимости. На выходе программы имеем результат:
Рис. 4
Рассмотрим результаты для вектора Шепли. Можно сделать вывод о генах, играющих роль в развитии шизофрении. Например, ген с наивысшим индексом значимости: COMT упомянут в работе [6]. Где говорится, что недавние исследования молекулярной генетики шизофрении, в которых основное внимание уделялось позиционным функциональным генам-кандидатам, предположительно связанным с шизофренией, начинают давать результаты, представляющие большой интерес. К ним относятся и ген COMT. Изучения в области молекулярной генетики шизофрении начали достигать особого прогресса в середине 2002 года. Было обнаружено, что несколько позиционных генов требуют большого внимания. К ним как раз относятся найденные нами PRODH2, DAO и DTNBP1. В этой же работе было упомянуто о скромной, но значимой связи между шизофренией и геном HTR2A. Интересна позиция гена VHL. Он был идентифицирован в 1993 г. В научной литературе описываются различные мутации данного гена, провоцирующие определенный тип синдрома Хиппеля-Линдау. Однако нигде нет доказательства его влияния на развитие шизофрении.
Из результатов видно, что есть гены, важная роль которых подтвердилась, например: VHL, PRODH2, HTR2A. Однако, распределения генов по значимости существо различны, что можно объяснить тем, что эти два метода считаются по разным методикам. При этом оба метода указывают нам на важную роль гена VHL в интересующей нас болезни.
Выводы
Проведённые исследования показали, что значение Шепли и MSC можно использовать в генетике. Также в данной работе представлено сравнение результатов, полученных с помощью вектора Шепли и MSC — вектора.
Таким образом, многие полученные результаты подтверждены современными научными публикациями, но также выявлен ген VHL, который может играть важную роль в проявлении этой болезни, но еще не рассмотрен в научной литературе.
Заключение
В данной работе были рассмотрены различные методы теории игр и аксиоматическая характеристика возможных методов решения с помощью свойств, подходящих для генетической интерпретации. Было проведено исследование свойств одноточечных решений, а именно подробное изучение факта удовлетворения свойствам, обеспечивающим возможность применения в генетике. Также были реализованы программы по подсчету вектора Шепли и MSC- вектора, которые позволяют показать результаты применения данного отдела теории игр к исследованию силы генов. В работе был выявлен ген, еще не рассмотренный в литературе, но возможно, что играющий роль в проявлении шизофрении.
Литература:
- «A game theoretical approach to the classification problem in gene expression data analysis» V. Fragnelli и S. Moretti.
- Stefano Moretti, Fioravante Patrone, Stefano Bonassi. ‘The class of microarray games and the relevance index for genes’.
- Jaeger J, Spang R, 2006.
- «A game theoretical approach to the classification problem in gene expression data analysis» V. Fragnelli и S. Moretti.
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21935
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3433970/