Основные характеристики надежности технической системы закладываются на этапе проектирования, в котором значительная роль отводится математическому проектированию [1].
По мере эксплуатации системы (объекта) происходит ее старение, сопровождающееся возникновением дефектов и отказов. При этом система переходит из исправного и работоспособного состояния, в предельное состояние, (рисунок 1) [2].
Рис. 1. Схема постоянных состояний и событий объектов: 1- повреждение; 2- отказ; 3- переход объекта в предельное состояние; 4- восстановление; 5- ремонт
Для большинства технических систем и, в том числе, систем управления свойственны три участка на кривой зависимости интенсивности отказов (ИО) от времени, (рисунок 2).
На начальном этапе жизненного цикла интенсивность отказов монотонно уменьшается. Это соответствует периоду приработки, в котором проявляются и последовательно устраняются дефекты технологии изготовления.
На втором этапе жизненного цикла интенсивность отказов остается приблизительно постоянной. Это соответствует так называемому периоду нормальной эксплуатации. В этот период, как правило, возникают внезапные отказы. На третьем этапе жизненного цикла интенсивность отказов постоянно возрастает. Это соответствует периоду износа, вызванного процессами старения. В этот период возникают, главным образом постепенные отказы.
Рис. 2. Зависимость интенсивности отказов от времени
Отказы в системах подразделяются по видам, признакам и характеристикой, (таблица 1) [3]
Таблица 1
Классификация отказов технических систем
Признаки отказа |
Вид отказа |
Характеристика отказа |
Характер изменения параметра до момента возникновения отказа |
Внезапный |
Скачкообразное изменение значений одного или нескольких параметров ТС |
Постепенный |
Постепенное изменение одного или нескольких параметров за счет медленного. постепенного ухудшения качества ТС. (Например, износ поршневых колец в цилиндрах двигателя внутреннего сгорания — постепенный отказ) |
|
Связь с отказами других элементов (узлов, устройств) |
Независимый (первичный) |
Отказ не обусловлен повреждениями или отклонениями других элементов (узлов) |
Зависимый (вторичный) |
Отказ обусловлен повреждениями или отказами других элементов (узлов, устройств). (Например, из-за пробоя конденсатора может сгореть другой элемент устройства) |
|
Возможность использования элемента после отказа |
Полный |
Полная потеря работоспособности, исключающая использование ТС по назначению |
Частичный |
Дальнейшее использование системы возможно, но с меньшей эффективностью |
|
Характер проявления отказа |
Сбой |
Самоустраняющийся отказ, приводящий к кратковременному нарушению работоспособности |
Перемежающийся |
Многократно возникающий сбой одного и того же характера (то возникающий, то исчезающий), связанный с обратными случайными изменениями режимов работы и параметров устройства. (Например, снижение чувствительности прибора может произойти из-за случайного резкого уменьшения напряжения питания) |
|
Устойчивый (окончательный) |
Отказ, устраняемый только в результате проведения восстановительных работ, является следствием необратимых процессов в деталях и материалах. (Например, выход из строя устройства из-за обрыва нити накала электронной лампы) |
|
Причина возникновения отказа |
Конструкционный |
Возникает вследствие нарушения установленных правил и норм конструирования |
Производственный |
Возникает из-за нарушения или несовершенства технологического процесса изготовления или ремонта ТС |
|
Эксплуатационный |
Возникает вследствие нарушения установленных правил и условий эксплуатации ТС |
|
Время возникновения отказа |
Период приработки |
Обусловлен скрытыми производственными дефектами, не выявленными в процессе контроля |
Период норм эксплуатации |
Обусловлен несовершенством конструкции, скрытыми производственными дефектами и эксплуатационными нагрузками |
|
Период старения |
Обусловлен процессами старения и износа материалов и элементов ТС |
|
Возможности обнаружения отказа |
Очевидные (явные) |
|
Скрытые (неявные) |
В [4] исследована структура системной сети многопроцессорной вычислительной системы, которая допускает произвольное расширение с сохранением маршрутных свойств. При расширении полного коммутатора фиксированного размера системная сеть строится как распределенный полный коммутатор, позволяющий бесконфликтно осуществлять произвольную перестановку пакетов данных посредством независимой их маршрутизации каждым абонентом (самомаршрутизации).
М. Ф. Каравай около 10 лет назад сформулировал задачу создания k-отказоустойчивых многопроцессорных вычислительных систем (МВС) реального времени с минимальным резервированием процессоров [5].
В этой задаче рассматривается система из N процессоров, которые разделяются на рабочее множество процессоров и множество процессоров W:горячего резерваB:. Необходимо определить структуру связей системы, чтобы времена исполнения прикладных задач на любом рабочем множестве процессоров были одинаковы. После отказа любых процессоров из W производится реконфигурация МВС с образованием нового состава W за счет включения в него любых t процессоров из B.
Первоначально эта задача решалась за счет симметризации связей СС относительно гамильтоновых циклов в ней (рисунок 3).
Рис. 3. Симметризация связей системной сети
Универсальная сетевая структура (УВС) позволяет решить задачу произвольного расширения системных сетей многопроцессорных вычислительных систем (МВС) с сохранением их маршрутных свойств. Как следствие УВС позволяет обеспечить отказоустойчивость МВС реального времени по процессорам и по межпроцессорным связям.
В [6] решали задачу разработки архитектуры отказоустойчивого мультипроцессора реального времени с использованием m-процессорного кластера, имеющего исполнительные процессоры, коммуникационный процессор для осуществления обмена по асинхронной магистрали и управляющий для администрирования кластера, распределения заданий.
Указано, что с учетом большого объема передаваемой информации и высокие требования к отказоустойчивости, самым узким местом в мультипроцессорах реального времени является канал информационного обмена. При использовании кодового разделения достигается практически неограниченное увеличение пропускной способности коммуникационной среды.
Предложенная модель отказоустойчивого мультипроцессора для решения задач обработки многомерных сигналов состоит из основного и резервного коммуникационных каналов и m-процессорных кластеров (рисунок 5).
Рис. 5. Архитектура m-кластерного отказоустойчивого мультипроцессора реального времени
Цель работы [7] состояла в исследовании возможности обеспечения отказоустойчивости потоковых систем на однотипных ВМ, использующих разные механизмы формирования команд.
Потоковые системы имеют существенные отличия, связанные со способом активизации команд. Существуют различные подходы к структурной организации среды формирования команд (СФК). Известны методы формирования команд в СФК на основе ассоциативной памяти (АП) и памяти с произвольным адресным доступом к ячейкам (ППД).
Для создания отказоустойчивых систем использован принцип расширяемого ядра, защищенного аппаратными методами повышения надежности. В качестве защищенного ядра служила среда формирования команд. Этот компонент системы реализован на основе запоминающих устройств, для которых хорошо разработаны аппаратные методы контроля и исправления ошибок.
В [8] предложены методы и принципы построения устройств обеспечения высокой надежности и отказоустойчивости вычислительных систем на основе динамического распределения запросов, а также разработаны теоретические положения, позволяющие определить условия работоспособности систем (устройств) динамического распределения запросов в зависимости от числа отказов и их распределения по модулям и функциям.
В [9] рассмотрены вопросы динамического распределения запросов на использование функциональных ресурсов, рассредоточенных по узлам вычислительной системы.
Указано, что устойчивость вычислительных систем к отказам процессорных модулей (ПМ) узлов обеспечивается на основе статических и динамических методов перераспределении.
При реконфигурации возможно использование многовариантности алгоритмов решения задач.
Отказоустойчивость и производительность РВС зависит от реализации протоколов динамического распределения запросов через канал связи и от варианта размещения ФР по узлам.
Литература:
1. Климентьев К. Е. Системы реального времени: обзорный курс лекций/ К. Е. Климентьев. — Самара: Самар. гос. аэрокосм. ун-т. Самара, 2008. — 45 с.
2. Афанасьева О. В., Голик Е. С., Первухин Д. А. Теория и практика моделирования сложных систем: Учеб. пособие. — СПб: СЗТУ, 2005. — 131 с.
3. Острейковский, В. А. Теория надежности: учебник для вузов по направлениям «Техника и технологии» и «Технические науки» / В. А. Острейковский. — 2-е изд., испр. — М.: Высшая школа, 2008. — 463 с. — ISBN 978–5-06–005954–0
4. Каравай М.Ф, Пархоменко П. П., Подлазов В. С. Универсальная сетевая структура для отказоустойчивых многопроцессорных систем реального времени. Труды конференции «Технические и программные средства систем управления, контроля и измерения» Москва, октябрь 2010.
5. Каравай М. Ф. Применение теории симметрии к анализу и синтезу отказоустойчивых систем // АиТ. 1996. № 6. С. 159–163.
6. Н. А. Косовец, Л. Н. Косовец. Разработка архитектуры отказоустойчивого мультипроцессора реального времени на основе высокопроизводительного встроенного m-процессорного кластера для решения задач обработки многомерных сигналов. «Штучнийінтелект» 3’2005
7. Клименко И. А., Жабина В. В. Обеспечение отказоустойчивости потоковых систем на однотипных вычислительных модулях. Вісник НТУУ «КПІ». Інформатика, управління та обчислювальнатехніка: Зб. наук.пр. — К.: Видавництво «ВЄК +», 2010. — № 51. — С. 166–171.
8. Богатырев, В. А. Теория и методы обеспечения отказоустойчивости управляющих компьютерных систем с динамическим распределением запросов: диссертация... доктора технических наук: 05.13.05 — Санкт-Петербург, 2002 — Количество страниц: 301 с. ил
9. Богатырев В. А. . Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов. Инженерное образование № 1 январь 2006