УДК 004.02

К вопросу разработки методики повышения качества анализа больших объемов мультимодальных данных на ресурсах программно-определяемых дата-центров с использованием методов семплирования

Паращук И. Б., Владимирова Е. С., Цыпнятов В. Б., Яровой Р. В.

Читать статью полностью

  К вопросу разработки методики повышения качества анализа больших объемов мультимодальных данных на ресурсах программно-определяемых дата-центров с использованием методов семплирования (222,26 KB)

Ссылка для цитирования:

К вопросу разработки методики повышения качества анализа больших объемов мультимодальных данных на ресурсах программно-определяемых дата-центров с использованием методов семплирования / И.Б. Паращук, Е.С. Владимирова, В.Б. Цыпнятов, Р.В. Яровой // Информация и Космос. – 2026. – № 1. – С. 46–52.


Аннотация

Статья посвящена исследованию перспектив применения инновационных методов из класса математической статистики для повышения качества анализа больших объемов мультимодальных данных на ресурсах современных программно-определяемых дата-центров, в частности, возможности использования для решения подобных задач методов семплинг-ориентированного анализа крупных массивов цифровой информации. Рассмотрены особенности и содержание этапов методики повышения качества анализа больших объемов данных с использованием алгоритмов семплирования, применение которой, в свою очередь, позволит повысить эффективность информационного обеспечения лиц, осуществляющих контроль и принимающих решения.

Ключевые слова:

: анализ многомодальных данных – multimodal data analysis; большие объемы данных – big data; программно-определяемый дата-центр – software-defined data center; показатель качества – quality score; семплирование – sampling; выборка – selection; методика – technique; этап – stage.

Список литературы

  1. Анализ больших данных : учебное пособие / И.Б. Тесленко, В.Е. Крылов, А.М. Губернаторов [и др.]. – Москва : КноРус, 2023. – 295 с.
  2. Паращук, И.Б. Большие Данные, проблемы и перспективы / И.Б. Паращук // Неделя науки : материалы конференции. – 2015. – С. 66–71.
  3. Кобзаренко, Д.Н. Учебное пособие по дисциплине «Анализ больших данных» / Д.Н. Кобзаренко, А.Г. Мустафаев. – Махачкала : ДГУНХ, 2019. – 107 с.
  4. Баланов, А.Н. Big Data и анализ статистики в спорте / А.Н. Баланов. – Санкт-Петербург : Лань, 2024. – 272 с.
  5. Онтологический подход и интеллектуальный анализ данных в задачах оценки показателей качества дата-центров специального назначения / И.Б. Паращук, Н.В. Михайличенко, С.А. Ясинский, И.И. Малиновский // Научно-практическая конференция «Современное состояние и перспективы развития инфокоммуникационных сетей связи специального назначения» : сборник материалов (Санкт-Петербург, 27 марта 2025 г.). – Санкт-Петербург : ВАС, 2025. – С. 211–216.
  6. Виткова, Л.А. Проблематика и особенности процедур аналитической обработки больших массивов гетерогенных данных о событиях кибербезопасности в инфокоммуникационных сетях и системах / Л.А. Виткова, И.Б. Паращук, И.Б. Саенко // Актуальные проблемы инфотелекоммуникаций в науке и образовании. XI Международная научно-техническая и научно-методическая конференция : сборник научных статей в 4 т. (Санкт-Петербург, 15–16 февраля 2022 г.). – 2022. – Т. 1. – С. 279–283.
  7. Лукичев, А.Е. Виртуализация нового типа / А.Е. Лукичев // Jet Info. Информационный бюллетень. – 2014. – № 11 (256). – С. 26–30.
  8. Нагорный, К. Эксплуатация ЦОД. Практическое руководство / К. Нагорный, А. Чеснов, Т. Чирков. – Москва : Альпина ПРО, 2024. – 320 c.
  9. Шабанов, Б.М. Принципы построения межведомственного центра коллективного пользования общего назначения в модели программно-определяемого ЦОД / Б.М. Шабанов, О.И. Самоваров // Труды института системного программирования РАН. – 2018. – Т. 30, № 6. – С. 7–24.
  10.  Паращук, И.Б. Особенности построения и анализа качества дата-центров как базовых элементов IT-инфраструктуры / И.Б. Паращук, Н.В. Михайличенко // Перспективные направления развития отечественных информационных технологий : материалы IV межрегиональной научно-практической конференции (Севастополь, 18–22 сентября 2018 г.). – Севастополь : СевГУ, 2018. – С. 28–29.
  11.  Качество обслуживания в программно-определяемых сетях для научных приложений: возможности и проблемы / Х.Э. Лосано-Риcк, Р. Ривера-Родригес, Х.И. Ньето-Иполито // Труды института системного программирования РАН. – 2021. – № 33 (1). – С. 111–122.
  12.  Защита программно-определяемых ЦОД. Как это делать правильно. – Москва : АО «Лаборатория Касперского», 2017. – 12 с.
  13.  Кононенко, А.А. Центры обработки данных нового поколения – взгляд на горизонт / А.А. Кононенко // Цифровая экономика. – 2018. – № 2 (2). – С. 66–69.
  14.  Veseljak, M. Software Defined Data Center (SDDC). Future Platform for Private and Public Cloud Services / M. Veseljak. – New York : NTT DATA, 2022. – 22 p.
  15.  Blokdyk, G. SDDC. A Complete Guide – 2020 Edition / G. Blokdyk. – New York : 5STARCooks, 2021. – 302 p.
  16.  Классификация мультимодальных данных о заболеваниях легких на основе позднего слияния модальностей / О.Н. Иванова, С. Кумар, M.Л. Цымблер, Е.В. Иванова // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. – 2024. – Т. 13, № 1. – С. 74–86. 
  17. Norris, S. Systematically Working with Multimodal Data Systematically/ S. Norris. – New York : John Wiley & Sons Limited, 2000. – 481 p.
  18.  Комплексирование многомодальных данных в интеллектуальных средах обитания на основе мультиагентных рекурсивных когнитивных архитектур / И.А. Пшенокова, М.И. Анчеков, В.А. Денисенко // Известия Кабардино-Балкарского научного центра РАН. – 2017. – № 62-2 (80). – С. 197–202.
  19. Узких, Г.Ю. Глубокое обучение для анализа многомодальных данных / Г.Ю. Узких // Вестник науки. – 2024. – Т. 4, № 8 (77). – С. 170–173.
  20. Ронжин, А.Л. Многомодальные интерфейсы: основные принципы и когнитивные аспекты / А.Л. Ронжин, А.А. Карпов // Труды СПИИРАН. – 2006. – Т. 1, № 3. – С. 300–319.
  21.  Вольфсон, М.Б. Анализ данных : учебное пособие / М.Б. Вольфсон. – Санкт-Петербург : СПбГУТ, 2015. – 82 с.
  22. Ryu, E.K. Adaptive Importance Sampling via Stochastic Convex Programming / E.K. Ryu, S.P. Boyd // IT Journal. – 2014. – No. 1412. – P. 42–45.
  23. Miesch, A.T. Methods of sampling, laboratory analysis, and statistical reduction of data / A.T. Miesch. – Washington : Nobel Press, 2025. – 447 p.
  24. Yen, S-J. Cluster-based under-sampling approaches for imbalanced data distributions / S-J. Yen, Y-S. Lee // Expert Systems with Applications. – 2006. – Vol. 36, Iss. 3. – P. 5718–5727.
  25. Краснов, Ф.В. Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок / Ф.В. Краснов, И.С. Смазневич, Е.Н. Баскакова // Труды ИСП РАН. – 2022. – Т. 34, № 2. – С. 77–88.
  26. Янцен, Д.Д. Обзор алгоритмов сэмплинга для приближенного выполнения запросов в системах баз данных / Янцен, Д.Д. –URL: https://itworkshop.susu.ru/files/Yantsen_slides.pdf(дата обращения: 09.11.2025).
  27. Исследование методов семплирования обучающих данных в задаче прогнозирования сепсиса / В.С. Глушков, З.А. Караваев, М.В. Миляев, Н.В. Ермаков // Вестник Омского университета. – 2025. – Т. 30, №1. – С. 16–24.
  28. Adaptive Importance Sampling in General Mixture Classes / O. Cappe, R. Douc, A. Guillin [et al.] // Statistics and Computing. – 2008. – Vol. 18. – P. 447–459.
  29. Беляков, Д.Е. Исследование эффекта добавления негативного сэмплирования при обучении факторизационных машин в задачах построения рекомендательных систем / Д.Е. Беляков, В.В. Кантор // Информационные процессы. – 2017. – Т. 17, № 2. – С. 159–163.
  30. Алгоритм на основе сэмплирования аэрозольных неоднородностей в задаче измерения скорости ветра / П.А. Филимонов, М.Л. Белов, С.Е. Иванов [и др.] // Компьютерная оптика. – 2020. – Т. 44, № 5. – С. 791–796.
  31. Вичугова, А.А. Когда количество не переходит в качество: почему большие данные требуют обеспечения Data Quality / А.А. Вичугова // Школа Больших Данных. – 2020. –URL: https://bigdataschool.ru/blog/data-quality-processes-and-tools/(дата обращения: 09.11.2025).
  32. Браженко, Д.Ю. Sampling / Д.Ю. Браженко. – 2017. – URL:https://www.econ.msu.ru/sys/raw.php?o=53606&p=attachment(дата обращения: 09.11.2025).
  33. Елизаров, В.В. Обоснование требований к программно-аппаратным комплексам специального назначения для сбора и обработки информации на основе методов интеллектуального анализа большого количества разнородных и неструктурированных данных / В.В. Елизаров, И.Б. Паращук, Д.В. Салюк // Техника средств связи. – 2024. – № 1 (165). – С. 76–89.