Control Systems and Computers, N4, 2022, Стаття 5

https://doi.org/10.15407/csc.2022.04.047

Control Systems and Computers, 2022, Issue 4 (300), pp. 47-53

Babak O.V., Tatarinov O.E., Yakovenko I.M., Sieriebriakov A.K. The Quasi-Orthogonalization Approach to Solving the Multicollinearity Problem of Empirical DataControl Systems and Computers. 2022. № 4. С. 47-53.

УДК  519.816

Бабак О.В., кандидат технічних наук, старший науковий співробітник, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України та МОН України, просп. Академіка Глушкова, 40, м. Київ, 03187, Україна, ORCID: https://orcid.org/0000-0002-7451-3314, E-mail: dep115@irtc.org.ua, babak@irtc.org.ua

Татарінов О.Е., науковий співробітник, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України та МОН України, просп. Академіка Глушкова, 40, м. Київ, 03187, Україна, ORCID: https://orcid.org/0000-0001-7206-6859, E-mail: dep115@irtc.org.ua, al.ed.tatarinov@gmail.com

Сєрєбряков А.К., аспірант, молодший науковий співробітник відділу інтелектуального управління, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України та МОН України, просп. Академіка Глушкова, 40, м. Київ, 03187, Україна, ORCID: https://orcid.org/0000-0003-3189-7968, E-mail: sier.artem1002@outlook.com

Яковенко І.М., науковий співробітник відділу інтелектуальних автоматичних систем, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України та МОН України, просп. Академіка Глушкова, 40, м. Київ, 03187, Україна, E-mail: yakvan@ukr.net, ORCID: orcid.org/0000-0002-4477-3254

Підхід до вирішення проблеми мультиколінеарності за допомогою квазіортогоналізації емпіричних даних

Вступ. Однією з умов коректного застосування регресійного аналізу при виявленні закономірностей в емпіричних даних є відсутність мультиколінеарних регресорів. Існують різні підходи подолання мультиколінеарності, проте незрозуміло, які фактори виявляються зайвими та їх видалення може позначитися на змістовному сенсі моделі. Якщо не послабити або не позбутися впливу мультиколінеарності, то стає неможливою головна мета машинної обробки даних – машинне навчання. Приховані в даних закономірності і знання, що витягуються з прихованих закономірностей, дозволяють зрозуміти сутність досліджуваного процесу і на основі наявних даних передбачати нові факти. Вищезазначена задача набуває важливого значення у зв’язку з очікуванням небаченого зростання обсягу інформації, що надходять від Інтернету Речей та Промислового Інтернету Речей. Поширеним прийомом боротьби з мультиколінеарністю є застосування рідж-регресії для оцінки регресії. Однак при цьому оцінки виходять зміщеними і користуватися цим методом потрібно обережно.

Мета статті – створення способу вирішення проблеми мультиколінеарності в задачах виявлення закономірностей в емпіричних даних, що сприяє змістовній інтерпретації оцінок регресії.

Методи. Для реалізації вирішення проблеми мультиколінеарності використовувався метод квазіортогоналізації вхідних змінних на основі гіпотетичного повного факторного експерименту (ПФЕ).

Результат. Запропоновано підхід до вирішення проблеми мультиколінеарності регресорів за допомогою процедури квазіортогоналізації даних, що базується на перетворенні факторів при їх кодуванні за правилами ПФЕ. Показано, що запропоноване кодування факторів призводить до зменшення мультиколінеарності даних. Зазначений ефект обґрунтовано відомими теоретичними положеннями кореляційного аналізу.

Висновки. Підсумки дослідження, представлені в цій статті, показують можливість побудови інформаційної технології усунення мультиколінеарності як при побудові моделей за короткими вибірками, так і при пакетній обробці Великих Даних.

 Завантажити повний текст в PDF (англійською).

Ключові слова: проблема мультиколінеарності, процедура квазіортогоналізації, кодування вхідних даних, повний факторний експеримент.

  1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Пер. с англ. М.: Издательский дом «Вильямс». 2007. 912 с.
  2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учеб. 6-е изд., перераб. и доп. М.: Дело. 2004. 576 с. ISBN 5-7749-0055-X. Режим доступа: <http://math.isu.ru/ru/chairs/me/files/books/magnus.pdf> (дата обращения: 23 декабря 2021).
  3. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН. 1999. 270 с. [Электронный ресурс]. URL: <https://scask.ru/a_book_zg.php> (дата обращения: 23.12.2021).
  4. Загоруйко Н.Г. и др. Обнаружение закономерностей в массивах экспериментальных данных. Вычислительные технологии. Том 18, Специальный выпуск, 2013. С. 12-
  5. Гриценко В.І., Бабак О.В., Суровцев І.В. Особливості взаємозв’язку мереж 5G, 6G з великими даними, інтернетом речей та штучним інтелектом. Кібернетика та обчислювана техніка.  № 2 (204). С. 5-19. DOI: <https://doi.org/10.15407/kvt204.02.005> Режим доступу: <http://kvt-journal.org.ua/content/2021/204/204_1.pdf> (Дата доступу: 23 грудня 2021).
  6. Орлова И.В. Подход к решению проблемы мультиколлинеарности с помощью преобразования переменных. Фундаментальные исследования. 2019. № 5. С. 78- [Электронный ресурс]. URL: <https://s.fundamental-research.ru/pdf/2019/5/42464.pdf> (дата обращения: 23.12.2021).
  7. Орлова И.В. Корректировка спецификации модели множественной регрессии при наличии мультиколлинеарности исходных регрессоров. В книге: Управление развитием крупномасштабных систем (MLSD’2019). Материалы Двенадцатой междунар. конфер., 1-3 окт. 2019 г., Москва. Научное электронное издание. М.: ИПУ РАН. 2019. С. 993-995. [Электронный ресурс]. URL: <http://www.spsl.nsc.ru/FullText/konfe/MLSDpdf> (дата обращения: 23.12.2021).
  8. Адлер Ю.В., Маркова Е.В., Грановский Ю.В. Планирование эксперимента при поиске оптимальных условий [Текст]. Монография. М.: Наука. 1976. 280 с. Режим доступа: < http://techliter.ru/load/uchebniki_posobya_lekcii/professionalnaya_literatura/planirovanie_ehksperimenta_pri_poiske_optimalnykh_uslovij_adler_ju_p_markova_e_v_granovskij_ju_v/67-1-0-2759> (дата обращения: 12 января 2022).
  9. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2005. 816 с.

Надійшла 19.01.2022