Двонаправлені рекурентні нейронні мережі

Двонаправлена рекурентна нейронна мережа (англ. bidirectional recurrent neural network, BRNN) з'єднують у протилежних напрямках два прихованих шари з однаковим входом. Завдяки такій формі породжувального навчання, вихідний шар рекурентної нейронної мережі може отримувати інформацію з минулих (попередніх) та майбутніх станів (наступних) одночасно.^[2] Вони були винайдені в 1997 році Майком Шустером і Кулдіпом Палівалем.^[1] BRNN були введені для збільшення кількості вхідної інформації, доступної для мережі. Наприклад, багатошаровий персептрон (MLP) та нейронна мережа з часовою затримкою (TDNNs) мають обмеження на гнучкість вхідних даних, оскільки вони вимагають фіксування вхідних даних. Стандартна рекурентна нейронна мережа (RNN) також має обмеження, оскільки майбутня вхідна інформація не може бути досягнута з поточного стану. Навпаки, BRNN не вимагає фіксації вхідних даних. Більш того, майбутня вхідна інформація доступна з поточного стану.

BRNN особливо корисні, коли наявність контексту вхідних даних покращує результат. Наприклад, при розпізнаванні рукописного тексту, точність може бути посилена розпізнанням букв, розташованих до і після поточної.

Архітектура ред.

Принцип BRNN полягає в тому, щоб розбити нейрони звичайної RNN на два напрямки: один для додатного напрямку часу (подальші стани), а інший для від'ємного напрямку часу (попередні стани). Вихід цих двох станів не пов'язаний з входами станів протилежного напрямку. Загальна структура RNN та BRNN бути зображена на діаграмі. Використовуючи два напрямки часу, може бути використана вхідна інформація з минулого та майбутнього поточного періоду, на відміну від стандартного RNN, що вимагає затримок для включення майбутньої інформації.^[1]

Навчання ред.

BRNN можна навчити, використовуючи подібні алгоритми в порівнянні з RNN, тому що два спрямованих нейрони не мають ніяких взаємодій. Проте, коли застосовується зворотне поширення, потрібні додаткові процеси, оскільки оновлення вхідних і вихідних шарів не можуть бути виконані одночасно. Загальні процедури тренувань полягають у наступному: для форвардного проходу спочатку проходять подальші стани і попередні стани, а потім проходять вихідні нейрони. Для зворотного проходу спочатку проходять вихідні нейрони, після чого передаються подальші і попередні стани. Після проходження вперед і назад, ваги оновлюються.^[1]

Застосунки ред.

BRNN застосовується у задача:

Розпізнавання мовлення (у поєднанні з довгою короткочасною пам'яттю)^[3]^[4]
Переклад^[5]
Розпізнавання рукописного введення^[6]
Прогноз структури протеїну^[7]^[8]
Розмічування частин мови
Синтаксичний аналіз залежностей^[9]
Видобуток сутностей^[10]

Див. також ред.

Література ред.

↑ ^а ^б ^в ^г Schuster, Mike, and Kuldip K. Paliwal. «Bidirectional recurrent neural networks.» Signal Processing, IEEE Transactions on 45.11 (1997): 2673—2681.2. Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan
↑ What are Bidirectional Recurrent Neural Networks?. deepai.org. Архів оригіналу за 16 лютого 2019.
↑ Graves, Alex, Santiago Fernández, and Jürgen Schmidhuber. «Bidirectional LSTM networks for improved phoneme classification and recognition.» Artificial Neural Networks: Formal Models and Their Applications–ICANN 2005. Springer Berlin Heidelberg, 2005. 799—804.
↑ Graves, Alan, Navdeep Jaitly, and Abdel-rahman Mohamed. «Hybrid speech recognition with deep bidirectional LSTM.» Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013.
↑ Sundermeyer, Martin, et al. «Translation modeling with bidirectional recurrent neural networks.» Proceedings of the Conference on Empirical Methods on Natural Language Processing, October. 2014.
↑ Liwicki, Marcus, et al. «A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks.» Proc. 9th Int. Conf. on Document Analysis and Recognition. Vol. 1. 2007.
↑ Baldi, Pierre, et al. «Exploiting the past and the future in protein secondary structure prediction.» Bioinformatics 15.11 (1999): 937—946.
↑ Pollastri, Gianluca, and Aoife Mclysaght. «Porter: a new, accurate server for protein secondary structure prediction.» Bioinformatics 21.8 (2005): 1719—1720.
↑ Grella and Cangialosi «Non-Projective Dependency Parsing via Latent Heads Representation» (2018).
↑ Dernoncourt, Franck; Lee, Ji Young; Szolovits, Peter (2017-05-15). «NeuroNER: an easy-to-use program for named-entity recognition based on neural networks». arXiv:1705.05487 [cs.CL].

Посилання ред.

Створення BRNN / LSTM в Python з Theano [Архівовано 12 червня 2018 у Wayback Machine.]
Lee, Ceshine (13 листопада 2017). Understanding Bidirectional RNN in PyTorch. Towards Data Science. Архів оригіналу за 1 квітня 2019. Процитовано 1 квітня 2019.

[Schuster-1] а ^б ^в ^г Schuster, Mike, and Kuldip K. Paliwal. «Bidirectional recurrent neural networks.» Signal Processing, IEEE Transactions on 45.11 (1997): 2673—2681.2. Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan

[2] What are Bidirectional Recurrent Neural Networks?. deepai.org. Архів оригіналу за 16 лютого 2019.

[3] Graves, Alex, Santiago Fernández, and Jürgen Schmidhuber. «Bidirectional LSTM networks for improved phoneme classification and recognition.» Artificial Neural Networks: Formal Models and Their Applications–ICANN 2005. Springer Berlin Heidelberg, 2005. 799—804.

[4] Graves, Alan, Navdeep Jaitly, and Abdel-rahman Mohamed. «Hybrid speech recognition with deep bidirectional LSTM.» Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013.

[5] Sundermeyer, Martin, et al. «Translation modeling with bidirectional recurrent neural networks.» Proceedings of the Conference on Empirical Methods on Natural Language Processing, October. 2014.

[6] Liwicki, Marcus, et al. «A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks.» Proc. 9th Int. Conf. on Document Analysis and Recognition. Vol. 1. 2007.

[7] Baldi, Pierre, et al. «Exploiting the past and the future in protein secondary structure prediction.» Bioinformatics 15.11 (1999): 937—946.

[8] Pollastri, Gianluca, and Aoife Mclysaght. «Porter: a new, accurate server for protein secondary structure prediction.» Bioinformatics 21.8 (2005): 1719—1720.

[9] Grella and Cangialosi «Non-Projective Dependency Parsing via Latent Heads Representation» (2018).

[10] Dernoncourt, Franck; Lee, Ji Young; Szolovits, Peter (2017-05-15). «NeuroNER: an easy-to-use program for named-entity recognition based on neural networks». arXiv:1705.05487 [cs.CL].

[2]

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]