Реализация метода сопряженных градиентов на NVIDIA CUDA | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №7 (66) май-2 2014 г.

Дата публикации: 16.05.2014

Статья просмотрена: 2041 раз

Библиографическое описание:

Мустафина, С. А. Реализация метода сопряженных градиентов на NVIDIA CUDA / С. А. Мустафина, Г. Р. Шангареева. — Текст : непосредственный // Молодой ученый. — 2014. — № 7 (66). — С. 49-52. — URL: https://moluch.ru/archive/66/10997/ (дата обращения: 16.11.2024).

Введение. Впрактических задачах часто возникает необходимость решения систем линейных алгебраических уравнений (СЛАУ) с симметричной, положительно определенной матрицей. Такие матрицы возникают, например, при дискретизации эллиптических уравнений математической физики и порождают линейные системы большой или очень большой размерности. В связи с этим при реализации алгоритмов решения СЛАУ на однопроцессорном компьютере могут возникнуть трудности из-за нехватки памяти, либо решение займет много времени. В этом случае необходимо использовать нестандартные подходы к написанию алгоритмов, основанные на использовании технологии параллельного программирования. Одним из методов решения СЛАУ является сведение исходной задачи к задаче безусловной минимизации квадратичной функции.

Целью данной работы является разработка параллельного алгоритма метода сопряженных градиентов для решения минимизации квадратичной функции. Для реализации поставленной цели была выбрана технология NVIDIA CUDA, как наиболее эффективное вычислительное средство, имеющая ряд преимуществ: доступность, легкость в изучении, поддержка практически любой современной видеокартой NVIDIA, наибольшая производительность.

Постановка задачи. Рассмотрим систему линейных уравнений (1) с симметричной, положительно определенной матрицей  размера :

                                                                                     (1)

Основой метода сопряженных градиентов является следующее свойство [1]: решение системы линейных уравнений (1) с симметричной положительно определенной матрицей  эквивалентно решению задачи минимизации функции:

                                                                                                 (2)

в пространстве . В самом деле, функция  достигает своего минимального значения тогда и только тогда, когда ее градиент равен нулю:

.

Таким образом, решение системы (1) можно искать как решение задачи безусловной минимизации функции (2).

Описание алгоритма метода сопряженных градиентов. Метод сопряженных градиентов для решения минимизации квадратичной функции (2) заключается в следующем [1]. На предварительном шаге задается начальное приближение , вычисляются начальный вектор невязки  и вектор направления :

Дальнейшие приближения  определяются следующими формулами:

Здесь  — невязка -го приближения, коэффициент  соответствует выполнению условия сопряженности  направлений  и .

С этой точки зрения коэффициент  является решением задачи минимизации функции  по направлению :

.

Для нахождения точного решения системы линейных уравнений с положительно определенной симметричной матрицей необходимо выполнить не более  итераций. Однако, учитывая ошибки округления, данный процесс обычно рассматривают как итерационный. Вычисления завершаются при выполнении условия остановки:

,

где  — приближение, полученное на итерации с номером ,  — приближение, полученное на предыдущей итерации. Параметр точности метода  задает исследователь. Также используется остановка при выполнении условия малости относительной нормы невязки:

.                                                                                                                          (3)

Метод сопряженных градиентов с применением технологии CUDA. В методе сопряженных градиентов наиболее целесообразный подход для распараллеливания состоит в распараллеливании вычислений, реализуемых в ходе выполнения итераций.

Проведя анализ последовательного алгоритма метода сопряженных градиентов (рис. 1), можно заключить, что основные вычислительные затраты приходятся на умножение матрицы  на вектора  и  (MultMatVec — 96,33 %). Поэтому для повышения эффективности работы метода достаточно распараллелить данную операцию. При реализации параллельных вычислений был использован параллельный алгоритм умножения матрицы на вектор, предложенный в учебном пособии [2, с. 78–81].

Описание: C:\Users\Администратор\Desktop\Без имени-1.jpg

Рис. 1. Анализ производительности алгоритма метода сопряженных градиентов

Также в алгоритме присутствуютразличные операции над векторами, такие как: скалярное произведение, сложение и вычитание, умножение вектора на число. В распараллеливании данных вычислений нет необходимости, поскольку время, приходящее на обработку векторов незначительно, что следует из анализа (см. рис. 1).

Тестирование и анализ эффективности алгоритма. Для сравнения последовательной и параллельной реализаций алгоритма метода сопряженных градиентов была проведена серия экспериментов. Тестирование параллельного алгоритма проводилось на вычислительном кластере с центральным процессором Intel Xeon, 48Гб ОЗУ, с 3 графическими сопроцессорами NVIDIA TESLA C2075, а так же графическим процессором NVIDIA Quadro 2000.

Для проверки корректности реализованных алгоритмов использованы СЛАУ с известными точными решениями. Матрица  генерировалась следующим образом:

,

где  — размерность матрицы. В качестве вектора свободных членов  был взят вектор, полученный в результате перемножения матрицы  на вектор , где  — точное решение СЛАУ (1). Вектор решения  заполняется случайными числами от  до . В качестве критерия останова взято условие завершения (3), точность метода .

Эффективность параллельных вычислений оценивается с помощью ускорения:

,

где  — время решения задачи на однопроцессорном компьютере,  — аналогичное время при решении с использованием параллельного программирования. Подчеркнем, что под ускорением  в данном случае понимается повышение производительности вычислений при использовании графического процессора относительно производительности вычислений, производимых на однопроцессорном компьютере.

В таблице 1 приведено время работы алгоритмов и полученное ускорение в зависимости от размера матриц. Следует отметить, что время работы алгоритма на графическом процессоре включает время, затрачиваемое на выделение памяти и копирование данных.

Таблица 1

Сравнительный анализ параллельного и последовательного алгоритмов

Размерность,

, сек.

,сек.

Ускорение,

200

0,044

0,193

0,23

500

0,415

0,484

0,86

1000

1,206

0,671

1,80

1500

3,236

0,953

3,40

2000

6,384

1,117

5,72

3000

20,993

3,125

6,72

4000

55,56

6,231

8,92

5000

107,923

10,962

9,85

Для иллюстрации приведенных данных в таблице 1 на рисунке 2 приведен график зависимости времени работы алгоритма на однопроцессорном компьютере и с применением технологии CUDA от размерности , на рисунке 3 представлен график ускорения  алгоритма от размерности .

Рис. 2. Время работы последовательного и параллельного алгоритмов метода сопряженных градиентов

Рис. 3. Ускорение алгоритма метода сопряженных градиентов

На графике, изображенном на рис. 3, видно, что при небольшой размерности  (до 500) ускорение меньше единицы, то есть параллельный алгоритм работает медленнее, чем последовательный. Это связано с затратами времени на выделение памяти на графическом процессоре и последующим копированием в нее исходных данных.

На больших же размерах матрицы алгоритм эффективен, так как ускорение больше единицы. Из графика (рис. 3) видно, что ускорение увеличивается с ростом числа .

Сравнительный анализ времени параллельного и последовательного алгоритмов метода сопряженных градиентов, показал, что применение технологии CUDA сокращает время решения задачи (до 10 раз). Однако следует отметить, что не имеет смысла использовать CUDA для работы с небольшими объемами данных. Для малых объемов входных данных ускорения практически не наблюдалось.

Литература:

1.                 Баркалов К. А. Методы параллельных вычислений. Н. Новгород: Изд-во Нижегородского госуниверситета им. Н. И. Лобачевского, 2011–124 с.

2.                 Варыгина М. П. Основы программирования в CUDA. Учебное пособие. Красноярск: Краснояр. гос. пед. ун-т им. В. П. Астафьева, 2012–138 с.

3.                 Сандерс Д., Кэндрот Э. Технология CUDA в примерах: введение в программирование графических процессоров. / под ред. ДМК Пресс. Пер. с англ., 2011. — 232 с.

Основные термины (генерируются автоматически): CUDA, NVIDIA, градиент, графический процессор, однопроцессорный компьютер, квадратичная функция, параллельный алгоритм, TESLA, параллельное программирование, последовательный алгоритм.


Похожие статьи

Программирование отдельных элементов САР скорости в Arduino

Реализация частотной фильтрации рентгеновских изображений в MATLAB

Расчет статической характеристики обратного клапана в программном комплексе FlowVision

Реализация VGA-интерфейса на базе FPGA фирмы Altera

Реализация линейного алгоритма «Видеопамять» (среда Delphi)

Современные технологии управления фоновыми потоками в приложении Android

Особенности распознавания объектов на базе Movidius Neural Computer Stick

В данной статье описываются особенности запуска моделей искусственных нейронных сетей с использованием сопроцессора Movidius Neural Computer Stick совместно с Raspberry pi для задач распознавания объектов, в том числе и на архитектуре AArch64. Помимо...

Применение графических процессоров для параллельных вычислений

Статья описывает актуальность использования параллельных технологий на основе графических процессоров. Рассмотрена задача гравитационного взаимодействия N-тел. Для анализа ускорения использованы различные графические процессоры.

Применение средств библиотеки QT5 для программирования моделей электрических цепей

Реализация алгоритма шифрования RSA на языке программирования LabView

Похожие статьи

Программирование отдельных элементов САР скорости в Arduino

Реализация частотной фильтрации рентгеновских изображений в MATLAB

Расчет статической характеристики обратного клапана в программном комплексе FlowVision

Реализация VGA-интерфейса на базе FPGA фирмы Altera

Реализация линейного алгоритма «Видеопамять» (среда Delphi)

Современные технологии управления фоновыми потоками в приложении Android

Особенности распознавания объектов на базе Movidius Neural Computer Stick

В данной статье описываются особенности запуска моделей искусственных нейронных сетей с использованием сопроцессора Movidius Neural Computer Stick совместно с Raspberry pi для задач распознавания объектов, в том числе и на архитектуре AArch64. Помимо...

Применение графических процессоров для параллельных вычислений

Статья описывает актуальность использования параллельных технологий на основе графических процессоров. Рассмотрена задача гравитационного взаимодействия N-тел. Для анализа ускорения использованы различные графические процессоры.

Применение средств библиотеки QT5 для программирования моделей электрических цепей

Реализация алгоритма шифрования RSA на языке программирования LabView

Задать вопрос