Choosing of neural network architecture for electronic differential system of electric vehicle

Cover Page

Cite item

Full Text

Abstract

Aim. To study various network architecture options for implementing an electronic differential system in an electric vehicle.

Materials and Methods. The study primarily used comparative analysis to identify the most rational neural network (NN) architecture for processing numerical data structured as arrays.

Results. The analysis revealed that a deep learning neural network is the most effective choice. For future developments, and after experimental confirmation, a recurrent neural network could also be a viable option.

Conclusion. The study confirmed that achieving the desired goal is not feasible using convolutional neural networks, large language models, random vector functional communication networks and radial-basis functional NNs.

Full Text

Введение

В настоящей статье подробно рассмотрен процесс выбора архитектуры для искусственной нейронной сети (ИНС), являющейся ядром системы электронного дифференциала (ЭД) с учётом ранее опубликованного исследования [1].

Выбор архитектуры НС для реализации электронно-дифференциальной системы является критическим параметром для успешной реализации поставленной задачи. В статье рассмотрены практические и научно-технические способы применения наиболее распространённых вариантов НС, а именно: нейронной сети глубокого обучения, рекуррентной нейронной сети, сверточной нейронной сети, радиально-базисной НС и др.

НС в виду своей гибкости может учитывать многочисленные факторы, влияющие на характер движения транспортного средства, такие как: погодные условия, состояние дорожного покрытия, характер вождения, специфичные особенности конкретной модели автомобиля. В настоящее время использование НС стало активной областью исследований в силовой электронике и приводе электродвигателей. Из-за их адаптивных способностей в процессе обучения, применение ИНС для идентификации систем и динамики управления стало многообещающей альтернативой для существующих систем управления [2]. НС могут применяться для управления и идентификации нелинейных систем, поскольку они аппроксимируют любую желаемую степень точности с помощью широкого спектра нелинейных моделей [3].

При практическом проектировании таких систем важнейшими характеристиками данных алгоритмов являются:

  1. устойчивость системы к артефактам измерения или внешним возмущениям [4];
  2. устойчивость к дрейфу распределения данных [5];
  3. аспекты безопасности и защищенности [6];
  4. способность дополнять человеческий опыт при принятии решений [7];
  5. возможность показать пользователю интересные корреляции, которые он обнаружил в массиве анализируемых данных [8];
  6. способность оценивать достоверность собственных предсказаний с высокой точностью [9].

1. Материалы и методы

1.1. Структура Электронного Дифференциала

Ранее в статье [1] был рассмотрен (Рис. 1) общий принцип построения системы для сбора показаний датчиков скорости, гироскопа, акселерометра и угла поворота рулевой рейки. Полученные данные при этом представляются в структурированном числовом формате (пример можно посмотреть на Git Hub, пользователь – «AnLiMan», репозиторий – «Electronics_Differential_System»). Этот аспект с одной стороны накладывает ограничения на диапазон применимых решений, например, невозможность применения больших языковых моделей, с другой, позволяет проще выбрать наиболее подходящий вариант архитектуры.

 

Рис. 1. Структура электронной дифференциальной системы с использованием нейронной сети [1]

Fig. 1. Structure of an electronic differential system using a neural network [1]

 

1.2. Обзор архитектур нейронных сетей

На Рис. 2a показана общая концепция архитектуры ИНС. Узлы НС организованы в линейные массивы, называемые слоями (layers). Обычно есть входной слой (input layer), выходной слой (output layer) и скрытые слои (hidden layers), при этом скрытых слоев может быть от одного (перцептрон) до нескольких (НС глубокого обучения).

 

Рис. 2. a) Общая топология ИНС, b) ИНС с прямой связью (персептрон), c) ИНС с обратной связью

Fig. 2. a) A general topology of ANN, b) Feedforward ANN (perceptron), c) Feedback ANN

 

Проектирование топологии сети включает определение количества узлов на каждом слое, количества слоев в сети и пути соединений между узлами. Обычно эти факторы изначально устанавливаются интуитивно, исходя из опыта разработчика, а после оптимизируются с помощью нескольких циклов экспериментов.

Существует два типа соединений между узлами. Один из них – одностороннее соединение без обратной связи. Другой – обратная связь, в которой выход узлов может быть входом для предыдущих или того же уровня узлов. На основе вышеопределенных типов связей, нейронные сети можно разделить на два типа: сеть с прямой связью (feedforward, Рис. 2b) и сеть с обратной связью (feedback, Рис. 2c).

Поскольку сигнал распространяется только в одном направлении, сеть с прямой связью статична; то есть один вход связан с одним конкретным выходом, а сеть с обратной связью динамична. Для одного входа состояние сети обратной связи изменяется в течение многих циклов, пока не достигнет точки равновесия, поэтому один вход производит ряд выходов. По этой причине второй вариант топологии более предпочтителен в более сложных и нелинейных задачах предсказания и классификаций.

1.2.1. Перцептрон

Персептрон – это сеть прямого распространения и самый ранний тип нейронной сети (Рис. 2а), разработанный Розенблаттом [10]. Персептрон с одним скрытым слоем имеет свои ограничения: он может решать только линейно разделимые задачи. Классический пример – задача XOR, которую нельзя смоделировать с помощью однослойного персептрона [11]. Многослойный персептрон (MLP), как показано на Рис. 2b, является наиболее используемой нейронной сетью. Его можно использовать для аппроксимации любых непрерывных функций. При обучении MLP обычно используется алгоритм обратного распространения ошибки [12], показанный на Рис 2c.

При многослойном персептроне сначала входные данные распространяются по сети и после этого вычисляются выходные значения. Затем ошибка между вычисленными и правильными (исходными) значениями, называемая функцией стоимости, распространяется обратно от выходных данных к входным данным для корректировки весов. Математически алгоритм минимизирует функцию стоимости с помощью метода градиентного спуска, поэтому его можно применять только к сетям с дифференцируемыми передаточными функциями.

1.2.2 Нейросеть глубокого обучения

Нейросеть глубокого обучения (DNN) представляет собой искусственную нейронную сеть с несколькими скрытыми слоями между входным и выходным слоями, как показано на Рис. 3. Нейронные сети глубокого обучения являются базовой моделью для многих других архитектур, о которых будет сказано далее.

 

Рис. 3. Архитектуры нейросетей. a) глубокого обучения – DNN, b) обычная НС (составлено авторами)

Fig. 3. Architectures of neural networks. a) DNN, b) regular NN

 

DNN способны моделировать сложные нелинейные зависимости. Архитектуры DNN создают составные модели, в которых объект представлен как многослойная композиция базовых элементов [13]. Использование дополнительных слоев позволяет комбинировать функции из более низких слоев, что может потенциально упростить моделирование сложных данных, требующих меньшего количества нейронов, чем это было бы в случае неглубокой сети с аналогичными характеристиками. Например, исследования показали, что разреженные многомерные полиномы легче аппроксимировать с использованием DNN, чем с помощью обычных нейронных сетей [14].

1.2.3 Рекуррентная нейросеть

Рекуррентная нейронная сеть (Recurrent Neural Network, RNN) – это тип искусственной нейронной сети, которая использует последовательные данные или данные временных рядов. Они базируются на нейронных сетях глубокого обучения и обычно используются для порядковых или временных задач, таких как языковой перевод, обработка естественного языка, распознавание речи и субтитры к изображениям. Рекуррентные нейронные сети отличаются своей «памятью», поскольку они берут информацию из предыдущих входов, чтобы влиять на текущий ввод и вывод. В то время как традиционные DNN предполагают, что входы и выходы независимы друг от друга, то выходные данные рекуррентных нейронных сетей зависят от предшествующих элементов в соответствующей последовательности.

Это делает RNN мощным инструментом для анализа и моделирования временных рядов, текстов, аудиосигналов и других данных, где важна последовательность информации. RNN способны к огромному разнообразию конечных состояний и хаотическому поведению [15]. Хаотические системы являются растущей областью интересов научного сообщества: от синхронизации и инженерного управления [16] до кибербезопасности [17]. Использование, а также изучение этих хаотических систем обусловлены их сложным и непредсказуемым поведением нелинейных и динамических систем.

Языковые модели, построенные на рекуррентных нейронных сетях, в настоящее время встречаются достаточно часто [18]. Цель обработки естественного языка – анализировать, понимать и генерировать последовательности слов, которые люди используют в повседневной жизни.

Рекуррентные НС особенно хороши для использования в приложениях управления и обработки сигналов [19]. Например, многоуровневые цифровые рекуррентные сети (LDRN) могут применяться для решения проблем управления и обработки сигналов [20].

1.2.4. Сверточная нейронная сеть

Convolutional neural networks (сверточная нейронная сеть, CNN) – тип нейронной сети глубокого обучения, которая может принимать на вход изображение и назначать важность различным аспектам/объектам на изображении и иметь возможность отличать одно от другого. Предварительная обработка, необходимая в CNN, намного ниже по сравнению с другими алгоритмами классификации. Они применяются в распознавании изображений и видео, рекомендательных системах [21] классификации изображений, сегментации изображений, анализе медицинских изображений, обработке естественного языка [22], интерфейсах мозг-компьютер [23] и финансовых временных рядах [24].

Компьютерное зрение на оcнове CNN позволило достичь того, что считалось невозможным в последние несколько столетий, например, распознавание лиц, автономные транспортные средства [2], супермаркеты самообслуживания и интеллектуальное медицинское лечение. CNN – это своего рода нейронная сеть прямого распространения, которая способна извлекать признаки из имеющихся данных с помощью сверточных структур. В отличие от традиционных методов извлечения советующих признаков [25, 26], при использовании CNN нет необходимости извлекать данные признаки вручную.

1.2.5. Другие варианты архитектур и топологий

Большие языковые модели (Large language models) – это тип нейронных сетей глубокого обучения, которые анализировать и создавать текст. Данные модели обучают с использованием больших объемов текстовых данных, что помогает им лучше справляться с такими задачами, как генерация текста [27]. Языковые модели являются основой для многих приложений, применяемых для обработки естественного языка, таких как преобразование речи в текст и анализ настроений. Примеры LLM – ChatGPT [28], LaMDA, PaLM и т.д.

Случайные векторные функциональные сети связей (RVFL, Random Vector Functional Link Networks), структура которых показана на Рис. 4., впервые были предложены в [29]. RVFL – это специальная однослойная нейронная сеть прямого распространения, в которой входной слой напрямую соединен как со скрытым слоем, так и с выходным слоем. Веса между входным слоем и скрытым слоем выбираются случайным образом из диапазона [−1, 1], в то время как веса между входным слоем и выходным слоем и веса между скрытым слоем и выходным слоем получаются с помощью псевдообратного алгоритма Мура-Пенроуза.

 

Рис 4. Архитектура RVFL [29]

Fig. 4. The architecture of RVFL [29]

 

В исследовании [30] авторы отметили, что не все веса в RVFL одинаково важны, и нет необходимости итеративно настраивать их все. Кроме того, они продемонстрировали несколько преимуществ RVFL, таких как простая аппаратная реализация, быстрая сходимость, мощная аппроксимационная способность [29] и удовлетворение требований приложений реального времени [31].

До сих пор однослойный скрытый слой RVFL и его варианты широко использовались в реальных приложениях. Некоторые известные приложения включают прогнозирование данных временных рядов, распознавание рукописного текста на английском языке, полуконтролируемое обучение, аппаратную реализацию, прогнозирование условных плотностей вероятности, ансамблевое обучение, распределенное обучение, улучшение сигнала.

Радиально-базисные функциональные НС (RBFNN, Radial Basis Function Neural Networks) впервые были введены Пауэллом [32] для решения проблемы интерполяции в многомерном пространстве, требующем столько же центров, сколько и точек данных. Позже, в исследовании [33], сняли «строгое» ограничение и использовали меньше центров, чем выборок данных, что позволило использовать множество практических приложений RBFNN, в которых количество выборок очень велико. Важной особенностью RBFNN является наличие быстрого линейного алгоритма обучения в сети, способной представлять сложное нелинейное отображение.

Сегодня RBFNN находятся в центре внимания не только в численном анализе, но и в исследованиях машинного обучения. Идея RBFNN вытекает из теории аппроксимации функций. Евклидово расстояние вычисляется от оцениваемой точки до центра каждого нейрона, и радиальная базисная функция (RBF) (также называемая функцией ядра или функцией Гаусса) применяется к расстоянию для вычисления веса (влияния) для каждого нейрона.

Радиальная базисная функция называется так, потому что радиусное расстояние является аргументом функции. Нейронная сеть с радиальной базисной функцией представляет собой трехслойную сеть. Как показано на Рис. 5 [35], слои включают в себя: входной слой, скрытый слой и выходной слой (слой суммирования).

 

Рис. 5. Архитектура радиально-базисной НС [35]

Fig. 5. Architecture of a radial basis function network [35]

 

Обсуждение

Согласно вышеизложенного, простейший вариант НС – перцептрон не подойдет для реализации поставленной цели, т.к. обладает малой гибкостью.

Также в качестве ядра системы ЭД не подходят сверточные нейронные сети и большие языковые модели из-за своей специфики работы с изображениями и текстом соответственно.

Схожая с перцептроном ситуация с RVFN, и RBFNN, они содержат только 1 промежуточный слой и имеют крайне специфичную концепцию вычисления весов и соединения между узлами, что помогает решать лишь ограниченный спектр задач.

Как было выяснено выше, нейронная сеть глубокого обучения является базовой моделью для других продвинутых архитектур НС. Они отлично подходят для решения нелинейных систем, могут учитывать незначительные аспекты и зависимости, а также просты в обучении. DNN хорошо подходят для целей предсказания и обучения на числовых данных, которые были получены в ходе исследования [1] и поэтому могут быть использованы в качестве ядра системы ЭД.

Что касается рекуррентных НС, то они могут применяться в более поздних версиях ЭД, в которых будут учитываться погодные условия и характер вождения, однако это можно утверждать только после экспериментального подтверждения.

Результаты

В соответствии с полученными результатами экспериментов наиболее оптимальной моделью является модель DNN (Рис. 6), содержащая минимальное количество конечных параметров и при этом имеет хорошую точность предсказания.

 

Рис. 6. Архитектура разработанной НС глубокого обучения

Fig. 6. Architecture of the developed deep learning neural network

 

На Рис. 7 приведены результаты теста точности прогнозирования НС на тестовой выборке из 22 пакетов. Синяя линия (V1) истинное значение из датасета, а зеленая линия предсказанное НС значение V1. Оранжевая линия реальное значение V2, а красная – предсказанное значение V2. Как видно из Рис. 7. НС показывает неплохие результаты даже при столь небольшом размере датасета, т.к. по крайней мере предсказания стремятся к своим образцовым значениям.

 

Рис. 7. Графики прогноза модели нейронной сети на тестовой выборке [1]

Fig. 7. Prediction graphs of the neural network model on the test sample [1]

 

Заключение

В качестве ядра системы электронно-дифференциальной системы подходит нейронная сеть глубокого обучения, которая является базовой моделью для многих других продвинутых архитектур НС.

Рекуррентные НС могут применены в более поздних версиях ЭД, в которых будут учитываться погодные условия и характер вождения, однако это можно будет утверждать только после экспериментального подтверждения.

Иные варианты рассмотренных нейронных сетей: сверточные нейронные сети, большие языковые модели, RVFN и RBFNN в любом случае, не могут быть использованы в качестве ядра системы ЭД.

Авторы заявляют что:

  1. У них нет конфликта интересов;
  2. Настоящая статья не содержит каких-либо исследований с участием людей в качестве объектов исследований.

The authors state that:

  1. They have no conflict of interest;
  2. This article does not contain any studies involving human subjects.
×

About the authors

Andrey A. Lisov

South Ural State University

Author for correspondence.
Email: lisov.andrey2013@yandex.ru
ORCID iD: 0000-0001-7282-8470
SPIN-code: 1956-3662

postgraduate student

Russian Federation, Chelyabinsk

Alexander G. Vozmilov

South Ural State University

Email: vozmiag@rambler.ru
ORCID iD: 0000-0002-1292-3975
SPIN-code: 2893-8730

Professor, Doctor of Technical Sciences

Russian Federation, Chelyabinsk

Kirill A. Gundarev

South Ural State University

Email: pioneer03.95@mail.ru
ORCID iD: 0009-0004-8358-1329
SPIN-code: 1238-1158

postgraduate student

Russian Federation, Chelyabinsk

References

  1. Lisov A.A. Development of an electronic differential system for electric vehicles based on deep neural network. Modern Transportation Systems and Technologies. 2024;10(3):351–367. (in Russ.). doi: 10.17816/transsyst634127
  2. Lisov AA, Kulganatov AZ, Panishev SA. Using convolutional neural networks for acoustic based emergency vehicle detection. Modern Transportation Systems and Technologies. 2023;9(1):95–107 (in Russ.). doi: 10.17816/transsyst20239195-107
  3. Cirrincione M, Pucci M, Cirrincione G, Capolino GA. Sensorless control of induction machines by a new neural algorithm: The TLS EXIN neuron. IEEE Transactions on Industrial Electronics. 2007;54(1):127–149. doi: 10.1109/TIE.2006.888774
  4. Su D, Zhang H, Chen H, Yi J, Chen PY, Gao Y. Is robustness the cost of accuracy? A comprehensive study on the robustness of 18 deep image classification models. Proceedings of the European conference on computer vision (ECCV). 20184; 631–648.
  5. Gama J, Žliobaitė I, Bifet A, et al. A survey on concept drift adaptation. ACM computing surveys (CSUR). 2014;46(4):1–37. doi: 10.1145/252381
  6. Berkenkamp F, Turchetta M, Schoellig A, Krause A. Safe model-based reinforcement learning with stability guarantees. Advances in neural information processing systems. 2017;30.
  7. Jarrahi MH. Artificial intelligence and the future of work: Human-AI symbiosis in organizational decision making. Business horizons. 2018;61(4):577–586.
  8. Khan J, Wei JS, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature medicine. 2001;7(6):673–679. doi: 10.1038/89044
  9. Nguyen A, Yosinski J, Clune J. Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015;427–436. doi: 10.1016/j.bushor.2018.03.007
  10. Rosenblatt F. Principles of neurodynamics. perceptrons and the theory of brain mechanisms. New York: Cornell Aeronautical Lab Inc Buffalo; 1961.
  11. Minsky M, Papert S. Perceptrons. An Introduction to Computational Geometry. Cambridge: MIT Press; 1969.
  12. Rumelhart DE, Hinton GE, Williams RJ. Learning internal representations by error propagation. Parallel Distributed Processing: Explorations in the Microstructures of Cognition. 1986;1:318–362.
  13. Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection. In: Advances in neural information processing systems. 2013;26.
  14. Rolnick D, Tegmark M. The power of deeper networks for expressing natural functions. In: arXiv preprint. 2017. doi: 10.48550/arXiv.1705.05502
  15. Serrano-Pérez JD, Fernández-Anaya G, Carrillo-Moreno S, Yu W. New results for prediction of chaotic systems using deep recurrent neural networks. Neural Processing Letters. 2021;53:1579–1596. doi: 10.1007/s11063-021-10466-1
  16. Bucci MA, Semeraro O, Allauzen A, et al. Control of chaotic systems by deep reinforcement learning. Proceedings of the Royal Society A. 2019;475(2231). doi: 10.1098/rspa.2019.0351
  17. Chai X, Gan Z, Yuan K, et al. A novel image encryption scheme based on DNA sequence operations and chaotic systems. Neural Computing and Applications. 2019;31(1):219–237. doi: 10.1007/s00521-017-2993-9
  18. Kombrink S, Mikolov T, Karafiát M, Burget L. Recurrent Neural Network Based Language Modeling in Meeting Recognition. Interspeech. 2011;11:2877–2880.
  19. Hagan MT, De Jesús O, Schultz R, et al. Training recurrent networks for filtering and control. Recurrent neural networks: Design and applications. 1999:311–340.
  20. Parlos AG, Menon SK, Atiya A. An algorithmic approach to adaptive state filtering using recurrent neural networks. IEEE transactions on neural networks. 2001;12(6):1411–1432. doi: 10.1109/72.963777
  21. Van den Oord A, Dieleman S, Schrauwen B. Deep content-based music recommendation. In: Advances in neural information processing systems; 2013.
  22. Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitasks learning. In: 25th international conference on Machine learning. 2008:160–167. doi: 10.1145/1390156.1390177
  23. Avilov O, Rimbert S, Popov A, Bougrain L. Deep learning techniques to improve intraoperative awareness detection from electroencephalographic signals. In: 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). 2020:142–145. doi: 10.1109/EMBC44109.2020.9176228
  24. Tsantekidis A, Passalis N, Tefas A, et al. Forecasting stock prices from the limit order book using convolutional neural networks. In: 19th conference on business informatics (CBI). 2017;1:7–12. doi: 10.1109/CBI.2017.23
  25. Wang Y, Li Z, Wang L, Wang M. A Scale Invariant Feature Transform Based Method. J. Inf. Hiding Multim. Signal Process. 2013;4(2):73–89.
  26. Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: IEEE computer society conference on computer vision and pattern recognition (CVPR’05). IEEE; 2005;1:886–893. doi: 10.1109/CVPR.2005.177
  27. Salyp BYu. Decoding methods for open text generation in large language models. Bulletin of Science and Education. 2023;10(141):8–14. (in Russ.).
  28. Kasneci E, Sebler K, Küchemann S, et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and individual differences. 2023;103. doi: 10.1016/j.lindif.2023.102274
  29. Igelnik B, Pao Y-H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net. IEEE Trans. Neural Network. 1995;6:1320–1329. doi: 10.1109/72.471375
  30. Pao YH, Park GH, Sobajic DJ. Learning and generalization characteristics of the random vector functional-link net. Neurocomputing. 1994;6:163–180. doi: 10.1016/0925-2312(94)90053-1
  31. Pao YH, Phillips SM. The functional link net and learning optimal control. Neurocomputing. 1995;9:149–164. doi: 10.1016/0925-2312(95)00066-F
  32. Powell MJ. Radial Basis Functions for Multivariable Interpolation: A Review. In: Mason J.C., Cox M.G. Eds. Algorithms for Approximation. Oxford: Clarendon Press; 1987. P. 143–167.
  33. Lowe D, Broomhead D. Multivariable functional interpolation and adaptive networks. Complex systems. 1988;2(3):321–355.
  34. Aouiti C, Alimi AM, Maalej AA. Genetic-designed beta basis function neural network for multi-variable functions approximation. Systems Analysis Modelling Simulation. 2002;42(7):975–1009.
  35. Montazer GA, Giveki D, Karami M, Rastegar H. Radial basis function neural networks: A review. Comput. Rev. J. 2018;1(1):52–74.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Structure of an electronic differential system using a neural network [1]

Download (108KB)
3. Fig. 2. a) A general topology of ANN, b) Feedforward ANN (perceptron), c) Feedback ANN

Download (216KB)
4. Fig. 3. Architectures of neural networks. a) DNN, b) regular NN

Download (147KB)
5. Fig. 4. The architecture of RVFL [29]

Download (149KB)
6. Fig. 5. Architecture of a radial basis function network [35]

Download (130KB)
7. Fig. 6. Architecture of the developed deep learning neural network

Download (174KB)
8. Fig. 7. Prediction graphs of the neural network model on the test sample [1]

Download (207KB)

Copyright (c) 2024 Lisov A.A., Vozmilov A.G., Gundarev K.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

link to the archive of the previous title