Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[256]

34.3-4*

Даны два образца Р и Р. Постройте конечный автомат, находящий все вхождения каждого из этих образцов в данный текст. Постарайтесь, чтоб число состояний вашего автомата было поменьше.

34.3-5

Пусть образец Р содержит, наряду с символами из алфавита £, еще и символы пропусков (упражнение 34.1-5). Постройте конечный автомат, который отыскивает все вхождения такого образца Р в текст Г за время 0(Т).

34.4. Алгоритм Кнута - Морриса - Пратта

Теперь мы переходим к алгоритму для поиска подстрок, работающему за линейное время. Этот алгоритм, предложенный Кнутом, Моррисом и Праттом, работает за время 0(то + п). Такое ускорение достигается за счет того, что предварительно вычисляется не функция перехода 5[0..т, 1..£], а в £ раз меньший массив - «префикс-функция» 7г[1..то] (её вычисление производится за время 0(т)). Зная функцию 7г, можно вычислить S(q,a) для любого состояния q G { 0,1,..., т } и символа а с учётной стоимостью 0(1) (в смысле амортизационного анализа). Сейчас мы увидим, как это делается.

34.4.1. Префикс-функция, ассоциированная с образцом

Префикс-функция, ассоциированная с образцом Р, несёт информацию о том, где в строке Р повторно встречаются различные префиксы этой строки. Использование этой информации позволяет избежать проверки заведомо недопустимых сдвигов (говоря в терминах простейшего алгоритма поиска) или обойтись без предварительного вычисления функции перехода (в терминах конечных автоматов).

К префикс-функции приводит следующий ход мыслей. Пусть простейший алгоритм ищет вхождения подстроки Р = ababaca в текст Т. Предположим, что для некоторого сдвига s оказалось, что q первых символов образца совпадают с символами текста, а в следующем символе имеется расхождение (рис. 34.9 (а), где q = 5). Стало быть, мы знаем q символов текста, от T[s+1] до T[s + g], и из этой информации можно заключить, что некоторые последующие сдвиги будут заведомо недопустимы. В примере на рис. 34.9, скажем, сразу видно, что недопустим сдвиг s+ 1, поскольку при этом сдвиге первый символ образца (буква а) окажется напротив s + 2-го символа текста, совпадающего со вторым символом образца, -


Рис. 34.9. Префикс-функция тг. (а) Образец Р = ababaca расположен так, что первые 5 букв образца совпадают с буквами в тексте Г (совпадающие буквы серые и соединены отрезками), (б) Исходя только из совпадения этих 5 букв, мы можем заключить, что сдвиг s+1 недопустим. Допустимость сдвига s + 2 не противоречит тому, что мы к данному моменту знаем о тексте, и отбросить этот сдвиг заранее нельзя, (в) Информацию о том, какие сдвиги заведомо недопустимы, можно получить, исходя только из образца Р. В нашем случае мы видим, что наибольший префикс строки Р, являющийся суффиксом Р$ [и отличный от всей Р5], имеет длину 3. На языке префикс-функций это означает, что 7г[5] = 3. В общем случае: если при проверке сдвига s первые q символов образца совпали с соответствующими символами текста, то следующий сдвиг, который надо проверять, равен s = s + (q - tr[q]).

а это буква b. А вот при сдвиге на s + 2 (рис. 34.9 (б)) первые три символа образца совпадают с тремя последними из известных нам символов текста, так что этот сдвиг априори отбросить нельзя. В общем случае хотелось бы уметь отвечать на такой вопрос:

Пусть= T[s + l..s + q]; каково наименьшее значение

сдвига s > s, для которого

где s + k = s + ql

Число s - это наименьшее значение сдвига, большее s, которое нельзя отбросить с порога, исходя из равенства T[s + l..s + q] = P[l..q]. Больше всего нам повезёт, если s = s + q: тогда мы можем не рассматривать сдвиги s+1, s+2,..., s+g- 1. И во всяком случае, при проверке нового сдвига s мы можем не рассматривать первые к символов образца: из формулы (34.5) мы знаем, что они заведомо совпадают с соответствующими символами в тексте.

Чтобы найти s, нам не нужно ничего знать о тексте Г: достаточно знания образца Р и числа q. Именно, T[s+ l..s + к] - суффикс строки Pq. Поэтому число к в формуле (34.5) - это наибольшее число к < q, для которого Рк является суффиксом Pq. Практически удобно хранить информацию именно об этом числе к - количестве символов, заведомо совпадающих при проверке нового сдвига s. Само значение s вычисляется по формуле s = s + (q - к).

Теперь дадим формальное определение. Префикс-функцией (prefix function), ассоциированной со строкой Р[1..то], называется функция 7Г: { 1, 2,..., тп } -> { 0,1,..., тп - 1 }, определенная следующим образом:

P[l..k] = T[s + l..s + к]

(34.5)

ir[q]

max{ к : к < q н Рк Z\ Pq}.


Иными словами, 7г[д] - длина наибольшего префикса Р, являющегося (собственным) суффиксом Рд. На рис. 34.10 (а) приведена префикс-функция для строки ababababca.

Алгоритм Кнута - Морриса - Пратта мы запишем в виде процедуры KMP-Matcher. Как мы увидим, KMP-Matcher можно рассматривать как усовершенствование алгоритма Finite-Automaton-Matcher. Процедура Compute-Prefix-Function, вызываемая алгоритмом KMP-Matcher, вычисляет префиксную

функцию 7Г.

KMP-Matcher(Т,Р)

1п \gets length[Т]

2m \gets length[Р]

3\pi \gets Compute-Prefix-Function(P)

4q \gets 0

5for i \gets 1 to n

6do while q>0 and P[q+1] \ne T[i]

7do q \gets \pi[q]

8if P[q+l]=T[i]

9then q \gets q+1

10if q=m

11then print Образец входит со сдвигом i-m

12q \gets \pi[q]

Compute-Prefix-Function(P)

1m \gets length[P]

2\pi[l] \gets 0

3k \gets 0

4for q \gets 2 to m

5do while k>0 and P[k+1] \ne P[q]

6do k \gets \pi[k]

7if P[k+l]=P[q]

8then k \gets k+1

9\pi[q] \gets k

10 return \pi

Сначала мы проанализируем время работы этих процедур (в предположении их правильности), а затем докажем, что они работают правильно.

34.4.2. Время работы

Покажем, что время работы процедуры Compute-Prefix-Function есть 0(т). Для этого воспользуемся методом потенциалов в амортизационном анализе (глава 18).

Процедура Compute-Prefix-Function выполняет то- 1 итераций цикла в строках 4-9. Покажем, что учётную стоимость каждой



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]