Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости

Александр Павлович Зыков

doi:10.15622/sp.19.8

Александр Павлович Зыков старший научный сотрудник отдела речевых технологий ООО «Стэл КС»

DOI:

https://doi.org/10.15622/sp.19.8

Ключевые слова:

модель языка, метод сглаживания

Аннотация

В работе предлагается метод сглаживания n-граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n-грамм. Вместо дисконтирования максимальной вероятности n-грамм предлагается увеличение мощности обучающего множества на ожидаемое число n-грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.

Литература

F. Jelinek. Continuous speech recognition by statistical methods. // Proc. IEEE, vol. 64, pp. 532-556, Apr. 1976.

Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010, С. 35-49.

Chen S.F. and Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling. // Computer science group, Harvard University, Cambridge, Massachusetts, TR-8-98, August, 1998.

Ronald Rosenfeld. Two decades of statistical language modeling: where do we go from here? / School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, USA.

Good, I.J. 1953. The population frequencies of species and the estimation of population parameters. // Biometrika, 40 (3 and 4):237-264.

Katz, Slava M. 1987. Estimation of probabilities from sparse data for the language model component of a speech recognizer. / IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-35 (3): 400-401, March.

T.Kawabata, M.Tamoto. Back-off method for N-gram smoothing based on binomial posteriori distribution. // NTT Basic Laboratories, 3-1 Morinosato-Wakamiya, Atsugi-Shi 243-01, Japan.

Опубликован

2011-12-01

Статистика

Просмотры	2093
Скачивания	1456

Как цитировать

Зыков, А. П. (2011). Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости. Труды СПИИРАН, 4(19), 146-158. https://doi.org/10.15622/sp.19.8

Скачать ссылку

Выпуск

Выпуск 4 (19), 2011: Труды СПИИРАН

Раздел

Статьи

Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).

Статьи

Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь