Контекстно-вільна граматика

Контекстно-вільна граматика (скорочено КВ-граматика) — формальна граматика типу 2 в ієрархії Чомскі.

Визначення

Контекстно-вільна граматика $G$ — це четвірка $(N,T,P,S)$ :

$S\in N$
$N$ та $T$ — скінченні множини, що не перетинаються
$P$ — скінченна підмножина $N\times (N\cup T)^{*}$

Використовують такі назви: $N$ — множина нетермінальних символів, $T$ — множина термінальних символів, $P$ — множина правил виводу, $S$ — початковий символ. Правила $(\alpha ,\beta )\in P$ записують як $\alpha \rightarrow \beta$ .

У лівій частині правила виводу має міститися одна змінна (нетермінальний символ). Формально має виконуватись: $\alpha \in N,\beta \in (N\cup T)^{*}$ , де $|\beta |\geq 1$ .

Розширенням КВ-граматик є стохастичні КВ-граматики. Правилам виведення співставляють ймовірність використання: $\rho :P\rightarrow \mathbb {R}$ де $\sum _{p_{r}\in P_{r}}\rho (p_{r})=1$

Нормальні форми

Для КВ-граматик визначено різні нормальні форми. В нормальних формах Чомскі (НФЧ) скорочуюють праву частину правил виводу, тобто права частина може складатись або з одного термінального символу, або з двох нетермінальних. Якщо в лівій частині міститься початковий символ, права частина може породжувати порожнє слово. Існує алгоритм, який переводить довільну КВ-граматику в НФЧ.

Контекстно-вільна граматика визначена в нормальній формі Грейбах (НФГ), якщо вона не породжує порожнього слова та права частина правил виводу починається з щонайбільше одного термінального символу, слідом за яким йдуть нетермінальні символи. Кожна КВ-граматика, яка не породжує порожнє слово, може бути перетворена в НФГ алгоритмом.

Породжена мова

Контекстно-вільні граматики породжують контекстно-вільні мови, тобто кожна КВ-граматика породжує КВ-мову, і для кожної КВ-мови існує КВ-граматика, що її породжує.

Контекстно-вільну мову $L$ , породжену КВ- граматикою $G$ , позначають $L(G)$ , де:

L(G)=\{w|w\in T^{*},S\rightarrow _{G}^{*}w\}

Символом $\rightarrow _{G}^{*}$ позначають послідовність правил виводу граматики $G$ , унаслідок застосування якої отримують слово $w$ мови $L(G)$ . Також $L(G)\subset T^{*}$ .

Контекстно-вільні мови можна розпізнати недетермінованим автоматом з магазинною пам'яттю. Якщо існує детермінований автомат, здатний розпізнати мову, її називають детермінованою КВ-мовою. Ця підмножина КВ-мов утворює теоретичну основу для синтаксиса багатьох мов програмування.

Контекстно-вільні мови можуть містити порожнє слово, наприклад, через правило виводу $(S\rightarrow \varepsilon )$ .

Властивості

Належність слова

Задача визначення належності слова КВ-мові, або визначення можливості породження слова $w$ КВ-граматикою, алгоритмічно розв'язна.^[1] Під час розв'язання цієї задачі можна побудувати дерево виводу. Його також називають деревом синтаксичного аналізу, а програму, яка його будує, — синтаксичним аналізатором. Для кожної КВ-граматики можна автоматично побудувати синтаксичний аналізатор (див. також генератор синтаксичних аналізаторів та CYK-алгоритм). Часова складність для найгіршого випадку синтаксичного аналізу довільної КВ-граматики O $(n^{3})$ . Для детермінованих КВ-граматик можна побудувати синтаксичний аналізатор, час роботи якого $O(n)$ . Типовим прикладом застосування ефективних синтаксичних аналізаторів з лінійним часом роботи є синтаксичний аналіз вихідних текстів програм в компіляторі.

Якщо слово $w$ мови $L$ ( $w\in L(G)$ ) в граматиці $G$ може бути отримане кількома різними способами, то таку граматику називають багатозначною. Синтаксичний аналізатор для багатозначної граматики може побудувати кілька різних дерев синтаксичного аналізу. Багатозначність не важлива для розв'язання задачі належності слова, але якщо різним деревам співставляють різне значення, то той самий текст може мати різні значення. Наприклад, однозначність граматики важлива для процесу компіляції, аби отримати правильний код.

Багатозначність

Задача розпізнавання багатозначності серед КВ-граматик алгоритмічно не розв'язна.^[2]. Однак існують способи перевірки на багатозначність або однозначність для деяких окремих випадків КВ-граматик^[3].

Еквівалентність

Задача визначення еквівалентності граматик $G_{1}$ та $G_{2}$ , або породження ідентичних мов $L(G_{1})=L(G_{2})$ , алгоритмічно нерозв'язна.^[4]

Підмножина

Задача визначення чи породжена КВ-граматикою $G_{1}$ мова також може бути породжена іншою КВ-граматикою $G_{2}$ , тобто чи $L(G_{1})\subseteq L(G_{2})$ , алгоритмічно нерозв'язна.^[4]

Об'єднання

Об'єднання $G$ двох КВ-граматик $G_{1}=(N_{1},T_{1},P_{1},S_{1}),G_{2}=(N_{2},T_{2},P_{2},S_{2})$ ( $G=G_{1}\cup G_{2}$ ) також КВ-граматика. Тобто, $G=(N_{1}\cup N_{2},T_{1}\cup T_{2},P_{1}\cup P_{2}\cup \{S\rightarrow S_{1},S\rightarrow S_{2}\},S)$ .

Перетин

Задача визначення належності перетину двох КВ-граматик $G_{1},G_{2}$ до класу КВ-граматик алгоритмічно не розв'язувана.^[4]

Доповнення

Доповнення КВ-граматики не контекстно-вільне.

Приклади

Нехай $G=(N,T,P,S)$ — КВ-граматика

T=\{x,y,z\}

N=\{S,A,B\}

P

складається з чотирьох правил виводу:

${\begin{aligned}S&\rightarrow &A\\A&\rightarrow &xAy\\A&\rightarrow &xBy\\B&\rightarrow &z\end{aligned}}$

$w_{1}=xxzyy$ в граматиці $G$ можна отримати такою послідовністю застосування правил виводу:

t(w_{1})=S(A(x,A(x,B(z),y),y))

, тут $t(w_{1})$ — дерево виведення. Корінь дерева та проміжні вузли позначені нетермінальними символами, а листи дерева позначені термінальними символами.

Таким чином, $w_{1}\in L(G)$ .

Слово $w_{2}$ де $w_{2}=z$ не належить до мови $L(G)$ , оскільки нетермінальний символ $B$ не початковий, а всі слова утворені від початкового мають розташовуватися посеред термінальних $x$ та $y$ . Формально це записують:

w_{2}\notin L(G)

Граматика $G$ не багатозначна.

Приклад багатозначності

Як приклад багатозначної граматики можна навести: $G_{2}=(N_{2},T_{2},P_{2},S_{2})$ .

T_{2}=\{x,y\}

N_{2}=\{S_{2},A\}

P_{2}

містить такі правила виводу:

${\begin{aligned}S_{2}&\rightarrow &A\\A&\rightarrow &AA\\A&\rightarrow &xAy\\A&\rightarrow &\varepsilon \end{aligned}}$

До $w_{3}=xy$ можна застосувати правила $S(A(x,A(\varepsilon ),y))$ , $S(A(\varepsilon ),A(x,A(\varepsilon ),y))$ та $S(A(x,A(\varepsilon ),y),A(\varepsilon ))$ . Таким чином, $G_{2}$ — багатозначна.

Див. також

Посилання

↑ Schöning, 2001, S.21
↑ Alfred V. Aho and Jeffrey D. Ullman. The Theory of Parsing, Translation, and Compiling. Volume 1: Parsing. — Prentice-Hall, 1972. — ISBN 0-13-914556-7.
↑ H. J. S. Basten. Ambiguity Detection Methods for Context-Free Grammars.
↑ ^а ^б ^в Schöning, 2001, S.137

Література

Uwe Schöning. Theoretische Informatik - kurzgefasst. — 4. — Spektrum Akademischer Verlag, 2001. — С. 13, 51. — ISBN 3-8274-1099-1.

[1] Schöning, 2001, S.21

[2] Alfred V. Aho and Jeffrey D. Ullman. The Theory of Parsing, Translation, and Compiling. Volume 1: Parsing. — Prentice-Hall, 1972. — ISBN 0-13-914556-7.

[3] H. J. S. Basten. Ambiguity Detection Methods for Context-Free Grammars.

[:0-4] а ^б ^в Schöning, 2001, S.137

[1]

[2]

[3]

[4]