Лекция № 2. Основные классы естественно-языковых систем. Системы распознавания речи ИВНД и НФ РАН
Cлайд 3
Основные классы естественно-языковых систем Средства распознавания речи распознают голосовую (речевую) информацию и преобразуют ее в последовательность символов 13 ИВНД и НФ РАН
Cлайд 4
6 Структура коммуникационной системы для организации речевого поведения ИВНД и НФ РАН
Cлайд 5
7 Структура коммуникационной системы для организации речевого поведения ИВНД и НФ РАН
Cлайд 6
8 Информационно-кодовая модель коммуникации Шеннона и Уивера ИВНД и НФ РАН
Cлайд 7
10 Адресант передает, а адресат принимает одно из группы событий (классов, к которым относятся передаваемые и получаемые сообщения). Группа событий обладает следующими свойствами (она - полная): 1) все события попарно несовместны: ; 2) их объединение образует пространство элементарных исходов : Правило Байеса ИВНД и НФ РАН
Cлайд 8
11 Правило Байеса Пусть - полная группа событий и – некоторое событие. Тогда по формуле Байеса исчисляется вероятность реализации гипотезы при условии, что событие А произошло. Здесь А – конкретное наблюдение (измерение). - априорная вероятность гипотезы - апостериорная вероятность известны функции распределения вектора признаков для каждого класса ИВНД и НФ РАН
Cлайд 9
12 Правило Байеса В случае двух классов и , если то классифицируется в , иначе в . ИВНД и НФ РАН
Cлайд 10
13 Правило Байеса ИВНД и НФ РАН
Cлайд 11
14 Правило Байеса ИВНД и НФ РАН
Cлайд 12
15 Информационно-кодовая модель коммуникации Шеннона и Уивера, модифицированная для коммуникационного акта Якобсоном ИВНД и НФ РАН
Cлайд 13
3 Автоматическое распознавание речи Общая блок-схема ориентированной на задачу системы распознавания-синтеза речи ИВНД и НФ РАН
Cлайд 14
20 Речевая волна во временной и частотной областях ИВНД и НФ РАН
Cлайд 15
уровень семантических представлений (словарь попарной сочетаемости слов) синтаксический уровень (словарь синтаксем) лексикон (словарь корневых основ) морфологический уровень (словарь окончаний) акустико-фонетический уровень Процесс восприятия речи человеком Структура речевой информации 31 ИВНД и НФ РАН
Cлайд 16
Системы распознавания речи 1. Системы покомандного распознавания 2. Системы распознавания ключевых слов в потоке слитной речи 3. Системы распознавания связной речи 4. Системы распознавания слитной речи 54 ИВНД и НФ РАН
Cлайд 17
Системы покомандного распознавания Средства голосового ввода, управления и сбора данных предназначены для ввода голосовых команд, управляющих работой некоторой системы (например бытовой техникой) 14 ИВНД и НФ РАН
Cлайд 18
лексикон (словарь корневых основ) акустико-фонетический уровень Системы покомандного распознавания 31 ИВНД и НФ РАН
Cлайд 19
38 1) Формирование вектора признаков 2) Сегментация 3) Сравнение входного и эталонных образов 4) Принятие решения Покомандное распознавание речи Базовый алгоритм покомандного распознавания ИВНД и НФ РАН
Cлайд 20
39 Покомандное распознавание речи Имеется три основных подхода к покомандному распознаванию речи 1. Подход, основанный на распознавании образов 2. Акустико-фонетический (структурный) подход 3. Подход, основанный на использовании искусственных нейронных сетей ИВНД и НФ РАН
Cлайд 21
44 Подход, основанный на распознавании образов Блок-схема распознавателя речи на основе подхода, основанного на распознавании образов ИВНД и НФ РАН
Cлайд 22
47 Подход, основанный на распознавании образов Алгоритм включает четыре основных шага: 1) Измерение первичных признаков речевого сигнала. Вычисляются спектральные признаки, либо с помощью гребенки фильтров, либо с помощью линейного предсказывающего кодирования, либо с помощью Дискретного преобразования Фурье 2) Формирование эталонов (обучение). Эталоны формируются с помощью некоторых усредняющих процедур. Это может быть модель, характеризующая статистику признаков эталона. ИВНД и НФ РАН
Cлайд 23
47 Подход, основанный на распознавании образов Алгоритм включает четыре основных шага: 3) Классификация, во время которой входной образ сравнивается с эталонами. Сравнение образов, которые есть последовательность векторов признаков, осуществляется с использованием как локального расстояния между двумя синхронными векторами, так и глобальной выравнивающей во времени процедуры (чаще всего, это процедура динамического программирования), которая компенсирует различные скорости произнесения входного и эталонного образов 4) Принятие решения ИВНД и НФ РАН
Cлайд 24
45 Подход, основанный на распознавании образов Достоинства подхода: 1. Простота. Он легко интерпретируется 2. Имеется хорошо развитый математический аппарат для всех процедур подхода 3. Устойчивость и инвариантность к различным словарям, пользователям, выбору признаков, использования алгоритмов сравнения образов и принятия решения, а также групп дикторов, используемого оборудования, канала 4. Не зависит от выбора речевой единицы: от фонемы до фразы. Дает хорошие результаты в широком круге задач ИВНД и НФ РАН
Cлайд 25
46 Подход, основанный на распознавании образов Недостатки: 1. Чувствительность к объему обучающей выборки 2. Подверженность качества распознавания влиянию шума 3. Неиспользование лингвистической информации 4. Большая вычислительная емкость ИВНД и НФ РАН
Cлайд 26
41 Акустико-фонетический подход Фонетические гипотезы, полученные при распознавании строки слов «all about» ИВНД и НФ РАН
Cлайд 27
41 Акустико-фонетический подход Диаграмма классификации стандартных фонем американского английского в широкие звуковые классы ИВНД и НФ РАН
Cлайд 28
42 Акустико-фонетический подход Бинарное дерево классификации речевых звуков ИВНД и НФ РАН
Cлайд 29
42 Акустико-фонетический подход Акустико-фонетический классификатор гласных ИВНД и НФ РАН
Cлайд 30
40 Сравнение подходов, основанного на распознавании образов и на основе акустико-фонетического анализа ИВНД и НФ РАН
Cлайд 31
51 Подход, основанный на искусственных нейронных сетях Многослойный персептрон для классификации гласных, основанной на формантных измерениях ИВНД и НФ РАН
Cлайд 32
Искусственные нейронные сети Трехслойный персептрон * - сравнивает с порогом - вычисляет сумму ИВНД и НФ РАН
Cлайд 33
52 Подход, основанный на искусственных нейронных сетях Нейронная сеть с задержками ИВНД и НФ РАН
Cлайд 34
38 1) Формирование вектора признаков 2) Сегментация 3) Сравнение входного и эталонных образов 4) Принятие решения Покомандное распознавание речи Базовый алгоритм покомандного распознавания ИВНД и НФ РАН
Cлайд 35
60 Оцифровка речевого сигнала ИВНД и НФ РАН
Cлайд 36
53 Первичная обработка Наиболее характерные подходы: 1. Спектральный анализ 2. Антропоморфная модель ИВНД и НФ РАН
Cлайд 37
57 Спектральный анализ Типичный вид речевой волны и ее спектра в модели анализа на основе гребенки фильтров ИВНД и НФ РАН
Cлайд 38
54 Спектральный анализ На основе гребенки фильтров ИВНД и НФ РАН
Cлайд 39
54 Спектральный анализ На основе гребенки фильтров ИВНД и НФ РАН
Cлайд 40
21 Представление речи в виде формантных траекторий Для последовательности «Why do I owe you a letter» ИВНД и НФ РАН
Cлайд 41
21 Сегментация Сегментация и разметка для последовательности «did-you» ИВНД и НФ РАН
Cлайд 42
75 Принятие решения Динамическое программирование Байесовское правило Скрытые Марковские модели ИВНД и НФ РАН
Cлайд 43
75 Принятие решения Ключевым вопросом в распознавании речи является вопрос сравнения входного образа с эталонными образами с целью выяснения степени их подобия Обычно входной и эталонный образы имеют разную длину ИВНД и НФ РАН
Cлайд 44
75 Принятие решения Сравниваемые образы не могут быть нормализованы по длительности, поскольку различные типы звуков имеет различные возможности по удлинению произнесения Необходимо найти способ сравнения спектральных векторов такой, чтобы можно было вычислять глобальную меру совпадения образов ИВНД и НФ РАН
Cлайд 45
76 Динамическое программирование ИВНД и НФ РАН
Cлайд 46
83 Адресант передает, а адресат принимает одно из группы событий (классов, к которым относятся передаваемые и получаемые сообщения). Группа событий обладает следующими свойствами (она - полная): 1) все события попарно несовместны: ; 2) их объединение образует пространство элементарных исходов : Правило Байеса ИВНД и НФ РАН
Cлайд 47
11 Правило Байеса Эти вероятности можно оценить методами математической статистики на множестве прецедентов. , где - число прецедентов из , - общее число прецедентов. - гистограмма распределения вектора признаков для прецедентов из класса . ИВНД и НФ РАН
Cлайд 48
11 Системы покомандного распознавания Классы ЕЯ систем Уровни представления информации (функции) Акустико-фонети-ческий Морфоло-гический Лекси-ческий Синтакси-ческий Модель мира Прагма-тический Сравнение (классификация) Системы распознавания речи Системы покомандного распозна-вания + - + - - - + ИВНД и НФ РАН
Cлайд 49
Системы распознавания слитной речи Системы типа «Речь-текст» предназначены для распознавания слитной речи (например для диктовки деловой корреспонденции) 14 ИВНД и НФ РАН
Cлайд 50
39 Распознавание слитной речи Имеется два подхода к распознаванию слитной речи: 1. Подход, основанный на распознавании образов 2. Структурный подход ИВНД и НФ РАН
Cлайд 51
44 Подход, основанный на распознавании образов Блок-схема распознавателя речи на основе подхода, основанного на распознавании образов ИВНД и НФ РАН
Cлайд 52
уровень семантических представлений (словарь попарной сочетаемости слов) синтаксический уровень (словарь синтаксем) лексикон (словарь корневых основ) морфологический уровень (словарь окончаний) акустико-фонетический уровень Системы распознавания слитной речи 31 ИВНД и НФ РАН
Cлайд 53
90 Подход, основанный на распознавании образов Модель фонемы ИВНД и НФ РАН
Cлайд 54
94 Подход, основанный на распознавании образов Составление эталонных сигналов слов из фонем в соответствие с моделью произношения ИВНД и НФ РАН
Cлайд 55
97 Подход, основанный на распознавании образов Модель предложения с произвольным порядком следования моделей слов и моделей фонем в предложении ИВНД и НФ РАН
Cлайд 56
44 Подход, основанный на распознавании образов Блок-схема распознавателя речи на основе подхода, основанного на распознавании образов ИВНД и НФ РАН
Cлайд 57
48 Структурный подход «Снизу-вверх» подход интеграции знаний для Распознавания слитной речи ИВНД и НФ РАН
Cлайд 58
49 Структурный подход «Сверху-вниз» подход к интеграции знаний для распознавания слитной речи ИВНД и НФ РАН
Cлайд 59
50 Структурный подход Подход, основанный на концепции классной доски для интеграции знаний ИВНД и НФ РАН
Cлайд 60
50 Структурный подход Взаимодействие между источниками знаний разных уровней ИВНД и НФ РАН
Cлайд 61
50 Структурный подход Частичные гипотезу на разных уровнях ИВНД и НФ РАН
Cлайд 62
52 Модель языка на основе многослойного персептрона Структурный подход (синтаксический уровень) ИВНД и НФ РАН
Cлайд 63
11 Системы распознавания слитной речи Классы ЕЯ систем Уровни представления информации (функции) Акустико-фонети-ческий Морфоло-гический Лекси-ческий Синтакси-ческий Модель мира Прагма-тический Сравнение (классификация) Системы распознавания речи Системы распозна-вания слитной речи + + + + + -(+) + ИВНД и НФ РАН
Cлайд 64
4 Сравнение эффективности распознавания человеком и искусственными системами Задача Процент ошибок человека Процент ошибок ИСРР База "TI46", SNR ~60 дБ Звуки, обозначающие буквы алфавита 1.6% 1 5% 2 База "TI digits", SNR ~60 дБ Цифровые последовательности 0.009% 0.72% 0.105% 3 База "Resource Management", SNR ~60 дБ (словарь 1000 слов, языковое моделирование) 0.1% 3.6% База "Resource Management", SNR ~60 дБ (словарь 1000 слов, нет модели языка) 2% 17% База "Wall Street Journal", SNR ~60 дБ (словарь 5000 слов, чтение) 0.9% 7.2% ИВНД и НФ РАН
Cлайд 65
4 Сравнение эффективности распознавания человеком и искусственными системами (продолжение) База "Switchboard", SNR ~60дБ (задача распознавания спонтанной речи) 4% 43% База “Corpus of Spontaneous Japanese”, SNR ~ 60 дБ (задача распознавания спонтанной речи) 4% 9% База "Switchboard", SNR ~60 дБ (задача выделения 20 ключевых слов) 12.8% 4 31.1% 7.4% 5 Слитная речь, SNR ~60 дБ (словарь 20000, чтение) 2.6% 12.6% 1 - распознавание последовательностей 2 - распознавание изолированных слов 3 - распознавание вокодерной речи (модель линейного предсказания 12-го порядка) 4 - отсутствие контекста, бессмысленный поток слов 5 - осмысленный контекст ~ 2 сек ИВНД и НФ РАН
Cлайд 66
4 Сравнение эффективности распознавания человеком и искусственными системами в условиях шума Отношение Сигнал-Шум Процент ошибок человека Процент ошибок ИСРР SNR ~60 дБ ~1% ~1% SNR 18 дБ ~1% ~10% SNR 12 дБ ~1% ~25% SNR 6 дБ ~1% ~60% SNR 0 дБ ~1% ~100% ИВНД и НФ РАН
Cлайд 67
4 Диалог человека и машины Существует два типа таких систем Системы первого типа ведут человека, следуя четкому порядку заполнения определенных форм. Примером такой системы может стать заказ билетов. В каждом из состояний система настраивается на распознавание заранее приготовленных атрибутов, допуская варианты возврата к предыдущему шагу или выходу из системы В системах второго типа человеку отводится роль собеседника, который может сам проявлять интерес к разным аспектам информации, задавая любые вопросы. ИВНД и НФ РАН
Cлайд 68
3 Общая блок-схема ориентированной на задачу системы речевого диалога Диалог человека и машины ИВНД и НФ РАН
Cлайд 69
4 Диалог человека и машины Классификация систем устного диалога по направлению потока информации Тип системы Поток информации Примеры Объяснение Система Пользователь Прокладка маршрута, обучение Заполнение форм Пользователь Система Покупки по телефону, перенаправление абонента Получение информации Пользователь Система Резервирование гостиницы, поиск литературы ИВНД и НФ РАН
Cлайд 70
4 Диалог человека и машины Классификация систем устного диалога по структуре информации Структура информации Тип системы Распознавание речи Семантическая интерпретация Стратегия диалога Реляционная БД Запрос к БД Ограничен-ное граммати-кой, заданной экспертом Отображение результата понимания на SQL-запрос Заполнение необходимых форм и подтверждение второстепенных ЕЯ текст Извлечение документа Статисти-ческая модель Извлечение информации (векторно-простран-ственная модель) Уточнение запросов и ограничение совпадающих элементов ИВНД и НФ РАН