Как с помощью искусственных нейронных сетей найти курильщика по кардиограмме (и зачем это нужно)

      Комментарии к записи Как с помощью искусственных нейронных сетей найти курильщика по кардиограмме (и зачем это нужно) отключены

Как с помощью искусственных нейронных сетей найти курильщика по кардиограмме (и зачем это нужно)

На Хабре уже писали о научном конкурсе для разработчиков и математиков, что запустили создатели мобильного кардиографа CardioQVARK. Кратко, сущность соревнования содержится в создании метода, что имел возможность бы найти курильщика среди некурящих людей на базе их кардиограмм.

Одним из фаворитов соревнования стал к.т.н. Роман Исаков, доцент кафедры биомедицинских и электронных технологий и средств Университета инновационных разработок Владимирского национального университета имени А.Г. и Н.Г. Столетовых.

Он создал способ определения курильщика на базе RR-интервалограмм и неестественных нейронных сетей — о нем мы сейчас и поболтаем.

Для чего искать курильщика

Существуют изучения экспертов по машинному обучению, каковые говорят о том, что ЭКГ-сигнал несет в себе данные о функционировании всех совокупностей организма, а не только сердца. Наряду с этим каждое заболевание по-своему «модулирует» ЭКГ-сигнал, соответственно символы амплитуд и приращений интервалов последовательных кардиоциклов возможно применять для диагностики информации о вероятных проблемах со здоровьем у человека, а также на ранних этапах их происхождения.

В докладе на V Интернациональной конференции «математическая биология и биоинформатика» Константин Воронцов из из Вычислительного центра им. А. А. Дородницына РАН показал различия в символах приращения промежутков (dRn), амплитуд (dTn) и углов (d?n) кардиоциклов у здоровых и страдающих разными болезнями людей

Поиск курильщика по кардиограмме окажет помощь добиться основной цели соревнования — получение результата, что бы показал возможность либо невозможность осуществления качественной диагностики посредством ЭКГ и методов обнаружения в сигнале кардиограммы маркеров болезней разных органов.

Сущность предложенного способа

Ответ поставленной задачи основывалось на догадке о зависимости вариабельности ритма сердца (ВСР) от функционального состояния здоровья [Р.М.Баевский и др.] Эта модель включает в себя обратную сообщение при помощи периферической нервной совокупности через мозг , разрешающую руководить потоком крови, а также методом динамического управления частотой ритма сердца.

Исходя из этого, главным знаком для анализа была выбрана RR-интервалограмма. Данный сигнал содержит все данные о процессах управления ритмом сердца в конечном её проявлении.

Неприятность в извлечении информации о влиянии других веществ и никотина на организм человека сводится к поиску параметров ВСР, владеющих громаднейшей разделяющей свойством классов курящих и не курящих людей. Учитывая то, что темперамент связи параметров возможно нелинейным, в базу классификатора была положена разработка неестественных нейронных сетей.

Обучающая выборка кардиограмм для конкурса включала 100 записей курящих и некурящих людей с соотношением 50/50%. Кроме этого была представлена контрольная выбора, включающая 250 кардиограмм — в ней не было представлено аннотаций, исходя из этого применять ее для изучения было нереально.

Исходя из этого исследователю потребовалось разбить обучающую выборку на две равные «подвыборки»: обучающую и тестовую.

Отбор записей в тестовую и обучающую подвыборки осуществлялся произвольным образом, но с соблюдением условия равного соотношения курящих и не курящих людей в каждой из них. Так как количество записей в обучающей подвыборке выяснилось через чур малым, то на финальной стадии по окончании выбора лучшей модели было нужно кроме этого занять её «доучиванием» на записях тестовой подвыборки.

Не все так легко

Для сведения к минимуму явления переобучения из комплекта данных, применяемого для

обучения, выделялся локальный валидационный комплект (20%) в случайном порядке. Он не учавствовал в корректировке параметров модели и служил для мониторинга неточности модели. При возрастании неточности на валидационном комплекте обучение прекращалось.

Существует возможность попадания в класс «не курит», людей скрывших этот факт либо пассивных курильщиков, а в класс «курит» — людей с малым «опытом» курения. Исходя из этого одно из изучений было произведено с модификацией обучающей базы данных на базе нейросетевого анализа выборки при помощи лучшей из взятых моделей. В следствии, модифицировались те записи, расхождение с моделью которых было громаднейшим.

Этот подход продемонстрировал маленькой рост эффективности на свободной (валидационной) выборке. Но, возможно высказать предположение, что в ней кроме этого присутствуют ошибочные метки, что есть ограничивающим причиной.

анализ и Обработка данных

Для создания пространства показателей для модели распознавания курящего человека исследователь изучил разные узнаваемые статистические параметры, особые параметры для оценки вариабельности ритма сердца, и спектр и гистограмму ритма сердца.

Параметры разделялись на следующие группы:

  • Энтропийные;
  • Параметры временной области;
  • Параметры частотной области;
  • Параметры формы гистограммы.

Изучение заключалось в вычислении всего комплекта параметров для классов курящих и не курящих в записях обучающей базы и последующем совместном анализе их распределений. Выбирались лишь те параметры, плотности распределения которых имели значимые расхождения в какой-либо области.

Дополнительно исследовались спектры ритма сердца, выбирались диапазоны частот в которых наблюдалось громаднейшее разделение двух классов. После этого производился кросскорреляционный анализ выбранных параметров для исключения сильных линейных связей в пространстве показателей.

В описание конкурсного ответа исследователь отмечает, что производились параллельные изучения комплекта параметров без оптимизации корреляционным анализом и с применением отсчетов спектра ритма сердца. Результаты данных в ответе не приводятся, потому, что они не продемонстрировали отличных показателей.

В следствии был взят следующий комплект параметров:

  1. EnLog — Энтропия «логарифмической энергии» (Log Energy Entropy);
  2. EnTrs — Пороговая энтропия (Threshold Entropy);

3,4) EnSamp — Две энтропии отсчетов (Sample Entropy) с параметром 1 и 5;

  1. NN22 — Число последовательных RR-промежутков, различающихся больше чем на 22 мс;
  2. HRVTi — Триангулярный индекс гистограммы ритма сердца;
  3. LF/HF — Отношение мощности низкочастотной к высокочастотной части спектра (обычный параметр оценки ВСР);
  4. LFn — Отношение мощности низкочастотной части спектра к сумме мощностей низкочастотной и высокочастотной частей спектра;
  5. SBxn(4) — Отношение мощности спектра в диапазоне от 0.093 Гц по 0.125 Гц к неспециализированной мощности спектра (ТР). Этот параметр взят в следствии особого спектрального анализа;
  6. SB1n — Мощность спектра в диапазоне от 0.0039 Гц по 0.0391 Гц. Этот параметр взят в следствии особого спектрального анализа.

Метод обработки данных возможно пошагово обрисовать следующим образом:

На первом шаге осуществляется загрузка кардиоинтервалограммы (КИГ). После этого посредством отсечения на уровне 1 СКО определяются выбросы. Потом они исключаются посредством интерполяции медианой, проводится сплайн-интерполяция КИГ для получения эквидистанционно квантованного сигнала ритмограммы (РГ).

Для удаления постоянной составляющей проводилось вычитание из ритмограммы среднего значения, по окончании чего она обрабатывалась окном Тъюрки для подавления результата Гиббса. Потом для обработанной ритмограммы осуществлялось стремительное преобразование Фурье, а благодаря вычислению безотносительного значения от комплексных значений этого преобразования удалось взять спектр ритма сердца.

Представленные выше параметры вычислялись с применением КИГ (не считая спектральных параметров), а после этого проводилось их нормирование для получения динамического диапазона от 0 до 1.

Модель удалось взять следующим образом:

Сперва осуществлялось обучение персептронных нейронных сетей (НС) с последовательно возрастающим числом нейронов в скрытых слоях (по ранее обрисованной методике). В следствии получается комплект нейросетевых моделей различного размера, разрешающий выбрать оптимальный размер нейронной сети.

Потом анализировался комплект НС на тестовой подвыборке и из него по параметру AUC выбирались лучшие.

Третьим шагом стала настройка порога отсечения выбранных моделей при помощи ROC-анализа методом Специфичности и балансировки Чувствительности для получения их минимальной отличия. Значения Чувствительности либо Специфичности менее 50% отбраковывались.

По данной методике исследовались следующие структуры НС:

  • двухслойная, с одним скрытым сигмоидальным выходом и сигмоидальным слоем (SS);
  • трехслойная с двумя скрытыми сужающимися сигмоидальным выходом и сигмоидальными слоями (SSdS);
  • трехслойная с двумя скрытыми сужающимися линейным выходом и сигмоидальными слоями (SSdP).

Результаты

Из результатов тестирования видно, что в среднем показатели эффективности классификатора находятся в районе 60–70%.

Наряду с этим, исследователь отмечает, что предоставленные на конкурс обучающие и тестовые выборки содержали ошибочные метки. Это снижает эффективность предложенных им моделей, соответственно при применении «чистых» разрешённых можно ожидать повышения эффективности созданного классификатора.

Помимо этого, согласно точки зрения автора изучения, хорошую роль может кроме этого сыграть повышение размера обучающей базы данных.

На свободной выборке данных исследователю удалось добиться показателей Чувствительности на Специфичности 63% и уровне на уровне 71%.

Итог работ, совершённых в рамках научного конкурса, демонстрирует наличие теоретической и экспериментально подтвержденной связи между функциональными ритма изменениями и вариабельностью сердца организма, которые связаны с табакокурением.

Smoking Simulator ► КУРИТЬ ВРЕДНО ► ВЫНОС МОЗГА


Интересные записи на сайте:

Подобранные по важим запросам, статьи по теме: