Беззапахове перетворення

Безза́пахове перетво́рення (англ. Unscented Transform, UT) є математичною функцією, що застосовується для оцінювання результату застосування заданого нелінійного перетворення до розподілу ймовірностей, що описується лише засобами скінченного набору статистики. Найпоширенішим застосуванням беззапахового перетворення є нелінійна проєкція оцінок середнього значення та коваріації у контексті нелінійних розширень фільтру Калмана. Його розробник, Деффрі Ульман[en] (англ. Jeffrey Uhlmann), пояснив у інтерв'ю, що прийшов до цієї назви, побачивши беззапаховий дезодорант на столі колеги, бо не вважає, що технічні терміни зобов'язані бути осмисленими, назвати перетворення своїм прізвищем він не міг, а абсурдність є його керівним принципом.[1] Тим не менш, обрана ним назва англійською починається тією ж літерою, що й його прізвище, тому залишається можливість назвати перетворення його прізвищем без зміни абревіатури (англійською).

Передумови ред.

Багато методів фільтрування та керування представляють оцінку стану системи у формі вектора середнього значення та пов'язаної матриці коваріації помилки. Наприклад, оцінене двовимірне положення об'єкта може представлятися вектором середнього положення,  , з невизначеністю, заданою у формі матриці коваріації 2x2, що задає дисперсію в  , дисперсію в   та взаємну коваріацію між ними. Нульова коваріація означає, що немає невизначеності чи помилки в тому, що положення об'єкта є точно таким, як задано вектором середнього значення.

Представлення у вигляді середнього значення та коваріації задає лише перші два моменти гаданого, але в іншому невідомого розподілу ймовірностей. У випадку об'єкта, що рухається, невідомий розподіл ймовірностей може представляти невизначеність положення об'єкта у певний момент часу. Представлення у вигляді середнього значення та коваріації є математично зручним, оскільки до вектора середнього значення   та матриці коваріації   може бути застосовано будь-яке лінійне перетворення  , як   та   відповідно. Ця властивість лінійності не виконується поза першим центральним моментом (середнім значенням) та другим центральним моментом (коваріацією), тому в загальному випадку неможливо визначити середнє значення та коваріацію в результаті нелінійного перетворення, оскільки результат залежить від усіх моментів, а задано лише перші два.

Хоча матриця коваріації часто і вважається очікуваною квадратичною помилкою, пов'язаною із середнім значення, на практиці ця матриця підтримується як верхня межа справжньої квадратичної помилки. Точніше, оцінка середнього значення та коваріації   консервативно підтримується так, що матриця коваріації   є більшою або рівною справжній квадратичній помилці, пов'язаній з  . Математично це означає, що результат віднімання очікуваної квадратичної помилки (що не є зазвичай відомою) від   є невід'ємновизначеною або додатньовизначеною матрицею. Сенс підтримання консервативної оцінки коваріації в тому, що більшість алгоритмів фільтрування та керування мають властивість розходитися (хибити), якщо коваріація є недооціненою. Це відбувається тому, що неправдиво мала коваріація означає меншу невизначеність, і призводить до того, що фільтр надає більше ваги (довіри), ніж це виправдано точністю середнього значення.

Повертаючись до наведеного вище прикладу, коли коваріація є нульовою, визначення положення об'єкта після його руху у відповідності до довільної нелінійної функції   є тривіальним: просто застосуйте функцію до вектора середнього значення. Коли коваріація є ненульовою, перетворене середнє значення у загальному випадку не дорівнюватиме  , і неможливо навіть визначити середнє значення перетвореного розподілу ймовірностей з самих лише його попереднього середнього значення та коваріації. Враховуючи цю невизначеність, нелінійно перетворені середнє значення та коваріацію може бути лише наближено. Найранішим таким наближенням було лінеаризувати нелінійну функцію та застосувати отриману матрицю Якобі до заданих середнього значення та коваріації. Це є основою розширеного фільтру Калмана (англ. Extended Kalman Filter, EKF), і хоча було відомо, що в багатьох умовах він породжує слабкі результати, практичної альтернативи не існувало протягом багатьох десятиліть.

Обґрунтування беззапахового перетворення ред.

У 1994 році Деффрі Ульман[en] зазначив, що розширений фільтр Калмана бере нелінійну функцію та часткову інформацію про розподіл ймовірностей (у формі оцінки середнього значення та коваріації) стану системи, але застосовує наближення до відомої функції, замість застосовувати його до неточно відомого розподілу ймовірностей. Він припустив, що кращим підходом було би використовувати застосовування точної нелінійної функції до наближувального розподілу ймовірностей. Обґрунтування цього підходу наведено в його докторській дисертації, де вперше було визначено термін беззапахове перетворення:[2]

  Розгляньмо наступне припущення: З фіксованим набором параметрів мусить бути простіше наближувати заданий розподіл, ніж наближувати довільну нелінійну функцію/перетворення. Виходячи з цього припущення, метою є знаходження параметризації, що фіксувала би інформацію про середнє значення та коваріацію, дозволяючи в той же час пряме пропускання цієї інформації через довільний набір нелінійних рівнянь. Це може досягатися генеруванням дискретного розподілу, що мав би такі самі перший та другий (і можливо вищі) моменти, де кожну точку цього дискретного наближення може бути перетворювано безпосередньо. Середнє значення та коваріація перетвореного ансамблю тоді може обчислюватися як оцінка нелінійного перетворення початкового розподілу. Загальніше, застосування заданого нелінійного перетворення до дискретного розподілу точок, обчислюване так, щоби фіксувати набір відомої статистики невідомого розподілу, називається беззапаховим перетворенням.
Оригінальний текст (англ.)
Consider the following intuition: With a fixed number of parameters it should be easier to approximate a given distribution than it is to approximate an arbitrary nonlinear function/transformation. Following this intuition, the goal is to find a parameterization that captures the mean and covariance information while at the same time permitting the direct propagation of the information through an arbitrary set of nonlinear equations. This can be accomplished by generating a discrete distribution having the same first and second (and possibly higher) moments, where each point in the discrete approximation can be directly transformed. The mean and covariance of the transformed ensemble can then be computed as the estimate of the nonlinear transformation of the original distribution. More generally, the application of a given nonlinear transformation to a discrete distribution of points, computed so as to capture a set of known statistics of an unknown distribution, is referred to as an unscented transformation.>
 

Іншими словами, задану інформацію про середнє значення та коваріацію може бути точно закодовано у множині точок, що називаються сигма-точками (англ. sigma points), які при розгляді як елементи дискретного розподілу ймовірностей мають середнє значення та коваріацію, рівні заданим. Цей розподіл може перетворюватися точно, шляхом застосування нелінійної функції до кожної з точок. Середнє значення та коваріація перетвореної множини точок тоді представляють бажану оцінку перетворення. Принциповою перевагою цього підходу є те, що нелінійна функція використовується повноцінно, на відміну від розширеного фільтру Калмана, що замінює її лінійною. Усунення необхідності лінеаризації також надає переваги, незалежні від покращення якості оцінювання. Однією із безпосередніх переваг є можливість застосовування беззапахового перетворення з будь-якою заданою функцією, тоді як лінеаризація може бути неможливою для функцій, що не є диференційовними. Практичною перевагою є те, що беззапахове перетворення може бути простішим для впровадження, оскільки уникає потреби у виведенні та реалізації матриці Якобі для лінеаризації.

Обчислення беззапахового перетворення ред.

Ульман зазначив, що в загальному випадку для визначення дискретного розподілу, що має задані середнє значення та коваріацію в   вимірах, необхідно і достатньо   сигма-точок.[2] Розгляньмо наступний симплекс точок у двох вимірах:

 

Можна переконатися, що наведений вище набір точок має середнє значення   та коваріацію   (одиничну матрицю). При будь-яких заданих двовимірних середньому значенні та коваріації   бажані сигма-точки може бути отримано множенням кожної точки на матричний квадратний корінь   та додаванням  . Аналогічний канонічний набір сигма-точок може бути згенеровано у будь-якому числі вимірів   шляхом взяття нульового вектора та точок, що відповідають рядкам одиничної матриці, обчислення середнього значення цього набору точок, віднімання цього середнього значення від кожної з точок, так що отримуваний в результаті набір матиме нульове середнє значення, потім обчислення коваріації набору точок з нульовим середнім значенням, і застосування її оберненого значення до кожної точки, так що коваріація набору стане дорівнювати одиничній матриці.

Ульман показав, що можливо зручно генерувати симетричний набір   сигма-точок зі стовпчиків  , де   є заданою матрицею коваріації, без необхідності обчислення оберненої матриці. Це обчислювально ефективно, та, оскільки точки формують симетричний розподіл, фіксує третій центральний момент (коефіцієнт асиметрії), коли базовий розподіл стану є або може вважатися симетричним.[2] Він також показав, що для впливу на статистику набору можна застосовувати вагові коефіцієнти, включно з від'ємними. Він та Саймон Джуль'є (англ. Simon Julier) опублікували декілька праць, що показали, що використання беззапахового перетворення у фільтрі Калмана, що називається беззапаховим фільтром Калмана (англ. Unscented Kalman Filter, UKF), у ряді застосувань забезпечує значне покращення продуктивності у порівнянні з розширеним фільтром Калмана.[3][4][5] Джуль'є також розробив та дослідив прийоми для генерування сигма-точок для фіксації третього моменту (коефіцієнту асиметрії) довільного розподілу, та четвертого моменту (коефіцієнту ексцесу) симетричного розподілу.[4][6]

Слід зазначити, що Джуль'є та Ульман публікували праці, використовуючи специфічну параметризовану форму беззапахового перетворення у контексті беззапахового фільтру Калмана, що використовувала від'ємні вагові коефіцієнти для фіксації інформації про передбачуваний розподіл.[3][5] Ця форма беззапахового перетворення є вразливою до чисельних помилок, від яких оригінальні формулювання (вище) не страждають. Згодом Джуль'є описав параметризовані форми, що не використовують від'ємних вагових коефіцієнтів, і також не є предметом цих питань.[7]

Приклад ред.

Беззапахове перетворення визначено для застосування заданої функції до будь-якої часткової характеристики в іншому невідомого розподілу, але найпоширенішим його застосування є для випадку, коли задано лише середнє значення та коваріацію. Звичайним прикладом є перетворення з однієї системи координат до іншої, як-от з декартової координатної сітки до полярних координат.[4]

Припустімо, що двовимірні оцінки середнього значення та коваріації   задано у декартових координатах як

 

Функцією перетворення до полярних координат   є

 

Множення кожної з сигма-точок канонічного симплекса (наведених вище) на   та додавання середнього   дає

 
 
 

Застосування функції перетворення   до кожної з наведених вище точок дає

 
 
 

Середнє значення цих трьох перетворених точок,  , є оцінкою беззапаховим перетворенням середнього значення у полярних координатах:

 

Оцінкою коваріації беззапаховим перетворенням є

 

де кожен квадрат під сумою є тензорним добутком векторів. Це дає

 

Це можна порівняти з лінеаризованим середнім значенням та коваріацією

 
 

Абсолютна різниця між оцінками беззапаховим перетворенням та лінеаризацією є відносно невеликою, однак у застосуваннях для фільтрування сукупний ефект невеликих помилок може призводити до невиправної розбіжності оцінки. Вплив помилок підсилюється, коли коваріація виявляється недооціненою, оскільки це призводить до надлишкової впевненості фільтру в точності середнього значення. У наведеному вище прикладі видно, що лінеаризована оцінка коваріації є меншою за оцінку беззапахового перетворення, що наводить на думку, що лінеаризація, швидше за все, недооцінила дійсну помилку свого середнього значення.

У цьому прикладі неможливо визначити абсолютну точність оцінок беззапахового перетворення та лінеаризації без експериментальної перевірки форми дійсного розподілу ймовірностей, пов'язаного з початковою оцінкою, та середнього значення і коваріації цього розподілу після застосування нелінійного перетворення (наприклад, визначених аналітично, чи чисельним інтегруванням). Такі аналізи виконувалися для перетворень координат за припущення нормальності базових розподілів, і оцінкам беззапахового перетворення властиво бути суттєво точнішими за отримані лінеаризацією.[5][8]

Емпіричний аналіз показав, що використання мінімального симплексного набору   сигма-точок є значно менш точним за використання симетричного набору   точок, якщо базовий розподіл є нормальним.[8] Це наводить на думку, що використання симплексного набору у наведеному вище прикладі не буде найкращим вибором, якщо базовий розподіл, пов'язаний з  , є симетричним. Навіть якщо базовий розподіл і не є симетричним, цей симплексний набір все одно, швидше за все, є менш точним за симетричний набір, оскільки асиметрія симплексного набору не відповідає асиметрії дійсного розподілу.

Повертаючись до прикладу, мінімальний симетричний набір сигма-точок може бути отримано з матриці коваріації   просто як вектор середнього значення,  , плюс та мінус стовпчики  :

 
 
 
 

Ця конструкція гарантує, що середнім значенням та коваріацією наведених вище сигма-точок є  , що можна перевірити безпосередньо. Застосування нелінійної функції   до кожної з цих сигма-точок дає

 
 
 
 

Середнє значення цих чотирьох перетворених сигма-точок,  , є оцінкою беззапаховим перетворенням середнього значення у полярних координатах:

 

Оцінкою коваріації беззапаховим перетворенням є

 

де кожен квадрат під сумою є тензорним добутком векторів. Це дає

 

Різниця між оцінками середнього значення беззапаховим перетворенням та лінеаризацією дає міру впливу нелінійності перетворення. Наприклад, якщо перетворення є лінійним, то оцінки беззапахового перетворення та лінеаризації будуть ідентичними. Це спонукає використовувати додавання квадрату цієї різниці до коваріації беззапахового перетворення, щоби захиститися від недооцінки дійсної помилки середнього значення. Цей підхід не покращує точність середнього значення, але може значно покращити точність фільтру з плином часу, зменшуючи ймовірність недооцінки коваріації.[2]

Оптимальність беззапахового перетворення ред.

Ульман зазначив, що при заданні лише середнього значення та коваріації в іншому невідомого розподілу ймовірностей задача перетворення є погано визначеною, оскільки існує безліч розподілів з такими самими двома першими моментами. За відсутності жодної апріорної інформації або припущень про характеристики базового розподілу, будь-які розподіли, що використовуються для обчислення перетворених середнього значення та коваріації, є однаково прийнятними. Іншими словами, не існує вибору розподілу із заданими середнім значенням та коваріацією, що є кращим за пропонований набором сигма-точок, отже, беззапахове перетворення є очевидно оптимальним.

Загальна констатація оптимальності, звісно, є марною для здійснення будь-яких чисельних тверджень про продуктивність беззапахового перетворення, наприклад, у порівнянні з лінеаризацією; тому він, Джуль'є та інші виконали аналіз за різних припущень про характеристики розподілу та/або форму нелінійної функції перетворення. Наприклад, якщо функція є диференційовною, що є необхідним для лінеаризації, цей аналіз підтверджує очікувану та підказувану емпірикою перевагу беззапахового перетворення.[5][8]

Застосування ред.

Беззапахове перетворення, особливо як частина беззапахового фільтру Калмана, широко замінило розширений фільтр Калмана у багатьох застосуваннях для нелінійного фільтрування та керування, включно з підводною,[9] наземною та повітряною навігацією,[10] та космічними апаратами.[11]

Див. також ред.

Примітки ред.

  1. http://www.ieeeghn.org/wiki/index.php/First-Hand:The_Unscented_Transform [Архівовано 22 листопада 2014 у Wayback Machine.] (англ.)
  2. а б в г Uhlmann, Jeffrey (1995). Dynamic Map Building and Localization: New Theoretical Foundations. University of Oxford. (англ.)
  3. а б Julier, S.; J. Uhlmann (1997). New Extension of the Kalman Filter to Nonlinear Systems. Proceedings of the 1997 SPIE Conference on Signal Processing, Sensor Fusion, and Target Recognition. Т. 3068. (англ.)
  4. а б в Julier, S.; J. Uhlmann (1997). Consistent Debiased Method for Converting Between Between Polar and Cartesian Coordinate Systems. Proceedings of the 1997 SPIE Conference on Acquisition, Tracking, and Pointing. Т. 3086. SPIE. (англ.)
  5. а б в г Julier, Simon; Uhlmann, Jeffrey (2000). A New Method for the Nonlinear Transformation of Means and Covariances in Nonlinear Filters. IEEE Trans. On Automatic Control. (англ.)
  6. Julier, Simon (1998). A Skewed Approach to Filtering. The Proceedings of the 12th Intl. Symp. On Aerospace/Defense Sensing, Simulation and Controls. Т. 3373. SPIE. (англ.)
  7. Julier, Simon (2002). The Scaled Unscented Transformation. Proceedings of the American Control Conference. Т. 6. IEEE. (англ.)
  8. а б в Zhang, W.; M. Liu та Z. Zhao (2009). Accuracy Analysis of Unscented Transformation of Several Sampling Strategies. Proc. of the 10th Intl. Conf. on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing. ACIS. (англ.)
  9. Wu, L.; J. Ma та J. Tian (2010). Self-Adaptive Unscented Kalman Filtering for Underwater Gravity Aided Navigation. Proc. of IEEE/ION Plans. (англ.)
  10. El-Sheimy, N; Shin, EH; Niu, X (2006). Kalman Filter Face-Off: Extended vs. Unscented Kalman Filters for Integrated GPS and MEMS Inertial. Inside GNSS[en]: Engineering Solutions for the Global Navigation Satellite System Community. 1 (2). (англ.)
  11. Crassidis, J.; Markley, F. (2003). Unscented Filtering for Spacecraft Attitude Estimation. AIAA Journal of Guidance, Control, and Dynamics. 26. (англ.)