Программа курса
"Интеллектуальные информационные системы"
18.04.06
Тема | Слайды | Литература |
---|---|---|
Цели и задачи курса. Данные, информация, знания. Интеллектуальные системы. История развития дисциплины "Искусственный интеллект", основные направления исследований и разработок. Автоматическая обработка текстов. Информационный поиск. | [ИИ1, ИИ2, Пенроуз] | |
Модели и методы информационного поиска. Прямой поиск. Поиск по индексу. Предварительная обработка. Булевская модель поиска. Векторная модель поиска. Подход TF*IDF. Оценка методов поиска. | [Храмцов, Добрынин, Некрестьянов, Сегалович, Brin] | |
Лемматизация, морфологическая разметка. Цели и виды морфологического анализа. Принципы работы морфологического анализатора. Процедурный, табличный и вероятностный подходы. | [Попов 1982, Перспективы, Коваленко, Segalovich, Сокирко] | |
Cинтаксический анализ. Основные формализмы описания синтаксической структуры предложения: дерево зависимостей, непосредственные составляющие. Формальные грамматики. Контекстно-свобдная грамматика. Поверхностный синтаксический анализ: parsing by chunks. | [Попов 1982, Гладкий, Леонтьева] | |
Выделение ключевых слов: графические
подсказки, морфологические ограничения, частотные критерии. Закон Ципфа. Использование
глобальной статистики: подход tf*idf. Автоматическое реферирование документов: задачи и подходы. Основные методы извлечения предложений: важные слова; учет положения предложения в тексте; учет "сигнальных" слов и фраз; учет связей между предложениями. |
[Хан, Солтон, Браславский 2005] | |
Выделение устойчивых словосочетаний. Что такое "устойчивое словосочетание"? Зачем нужно выделять устойчивые словосочетания? Методы выделения. Частота + морфологические шаблоны. Статистическая проверка гипотез: t-тест, хи-квадрат критерий Пирсона (анализ таблиц сопряженности 2х2), отношение функций правдоподобия. | [FSNLP, Добров, Статистика] | |
Выделение терминов и связей между ними; тезаурусы. Что такое термин? Что такое семантическая связь (семантическое отношение)? Что такое тезаурус/онтология? Области приложения. Первичные источники. Классификация методов. Обзор методов. Методы нахождения семантически близких терминов. | [Добров, Bourigault, Jacquemin, Hearst, Grefenstette, Sato] | |
Автоматическая категоризация документов ("классификация с учителем"). Постановка задачи. Примеры приложений. Представление документов. Проблема высокой размерности пространства классификации. Методы снижения размерности: выбор признаков, агрегация признаков. Формулы для вычисления важности термина для классификации. Кластеризация терминов. Латенто-семантическое индексирование (LSI). Методы построения классификаторов: параметрические, на основе образцов. Байесовский классификатор. Support Vector Machine (SVM). Метод Rocchio. Центроиды классов. K ближайших соседей (kNN). | [Sebastiani, IIR, Добрынин] | |
Автоматическая кластеризация документов ("классификация без учителя"). Постановка задачи. Примеры приложений. Представление входной информации. Иерархические агломеративные методы (метод одиночной связи, метод полной связи, метод группового среднего). Метод k средних. Кластеризация на основе суффиксных деревьев (suffix tree clustering, STC). | [Zamir] | |
Стилистический анализ документов. Что такое "стиль документа"? Стиль в MS Word. Проблема определения авторства: постановка задачи, автоматические методы, подходы, примеры. Функциональные стили. Стилистическая категоризация. Стлистические признаки. Индексы удобочитаемости. Ранжирование с учетом стиля. | [Karlgren, Браславский 2002, Braslavski 2005, Хмелев, Кукушкина] | |
Экспертные системы. Структура экспертной системы: база знаний, машина вывода, механизмы приобретения и объяснения знаний, интеллектуальный интерфейс. Декларативная и процедурная формы представления знаний. Модели представления знаний. Продукции. Фреймы. Семантические сети. Формальные логические модели. Методы извлечения знаний. | [Осуга, ИИ2, Гаврилова 1992, Попов 1996] | |
Этапы проектирования экспертной системы: идентификация, концептуализация, формализация, реализация, тестирование, опытная эксплуатация. Участники процесса проектирования: эксперты, инженеры по знаниям, разработчики, конечные пользователи. | [Гаврилова 2000, Попов 1996] |
Литература
[Айвазян] Прикладная статистика: Классификация и снижение размерности: Справ. изд. / Под. ред. С.А. Айвазяна. - М.: Финансы и статистика, 1989.
[Браславский 2002] Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов //Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. семинара "Диалог-2002". Т. 2. - М.: Наука, 2002. - С.83-93. (Электронная версия: http://company.yandex.ru/articles/article8.html)
[Браславский 2005] Брасласвский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов //Труды РОМИП-2005. СПб., 2005. С. 40-53. (Эл. версия: http://www.romip.narod.ru/romip2005/03_extragon.pdf)
[Гаврилова 1992] Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. - М.: Радио и связь, 1992.
[Гаврилова 2000] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - СПб.: Питер, 2000.
[Гладкий] Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. - М.: Наука, 1985.
[Добров] Добров Б.Н., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003. СПб, 2003. С. 201-210. (Элетронная версия: см. http://rcdl2003.spbu.ru)
[Добрынин] Добрынин В. Теория информационно-логических систем. Информационный поиск. (Методичекие указания к курсу). - СПб., 2002. (Эл. версия: http://ir.apmath.spbu.ru/publications/dobrynin_ir_intro/ )
[ИИ1] Искусственный интеллект: Справочник: Кн.1: Системы общения и экспертные системы. - М.: Радио и связь, 1990.
[ИИ2] Искусственный интеллект: Справочник: Кн.2: Модели и методы. - М.: Радио и связь, 1990.
[Коваленко] Вероятностный морфологический анализатор русского и украинского языков, http://linguist.nm.ru/stemka/stemka.html
[Кукушкина] Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации//Проблемы передачи информации, 2001, т.37, вып.2, с.96-108. (Электронная версия: http://www.math.toronto.edu/dkhmelev/PAPERS/published/gramcodes/gramcodes.pdf)
[Леонтьева] Леоньтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. - М.: Издательский центр "Академия", 2006.
[Нейл] Нейл К., Шанмагантан Г. Web-инструмент для выявления плагиата//Открытые системы. 2005. №01. С. 40-44. (Эл. версия - http://www.osp.ru/os/2005/01/040_print.htm)
[Некрестьянов] Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. - 2002. - №28(4). С. 207-225. (Электронная версия: http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html)
[Осуга] Осуга С. Обработка знаний. - М.: Мир, 1989.
[Пенроуз] Пенроуз Р. Новый ум короля: О компьютерах, мышлении и законах физики. – М.: УРСС, 2003.
[Перспективы] Перспективы развития вычислительной техники в 11 кн. Кн. 2. Интеллектуализация ЭВМ. - М.: Высшая школа, 1989.
[Попов 1982] Попов Э.В. Общение с ЭВМ на естественном языке. - М.: Наука, 1982.
[Попов 1996] Статические и динамические экспертные системы // Э.В. Попов, И.Б. Фоминых, Е.Б. Кисель, М.Д. Шапот. – М.: Финансы и статистика, 1996.
[Рао] Рао С.Р. Линейные статистические методы и их применения. М.: Наука, 1968.
[Сегалович] Сегалович И.В. Как работают поисковые системы //Мир Internet, - 2002. - №10. (Электронная версия: http://www.dialog-21.ru/directions/Segalovich_vorprint.doc)
[Сокирко] Сокирко А. В. Морфологические модули на сайте www.aot.ru //Материалы конференции "Диалог-2004". Эл. версия: http://www.dialog-21.ru/Archive/2004/Sokirko.htm
[Солтон] Солтон Дж. Динамические библиотечно-информационные системы. - М.: Мир, 1979.
[ФДКА] Факторный, дискриминантный и кластерный анализ: Пер. с англ. - М.: Финансы и статистика, 1989.
[Хан] Хан У., Мани И. Системы автоматического реферирования//Открытые системы, 2000. - №12. Эл. верия: http://www.osp.ru/os/2000/12/067_print.htm
[Хмелев] Хмелев Д. Распознавание автора текста с использованием цепей А.А. Маркова //Вестник МГУ, сер.9: Филология, N 2, 2000, с.115-126. (Электронная версия: http://www.rusf.ru/books/analysis/vestnik2000win.htm )
[Храмцов] Храмцов П. Информационно-поисковые системы Internet // Открытые системы, - 1996. - №3. (Электронная версия: http://www.osp.ru/os/1996/03/46_print.htm )
[Braslavski 2005] Braslavski P., Tselishchev A, Style-Dependent Document Ranking. In Proc. RCDL'2005. (Эл. версия: http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek7_1_paper.pdf)
[Brin] Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Статья с WWW7, эл. версия http://www-db.stanford.edu/pub/papers/google.pdf
[Grefenstette] Grefenstette G. Automatic Thesaurus Generation from Raw Text using Knowledge-Poor Techniques // Proceedings of SIGIR, 1995.
[Hearst] Hearst M. A. Automatic Acquisition of Hyponyms from Large Text Corpora//Proc. of the 14th International Conference on Computational Linguistics, Nantes, France, 1992. Эл. версия http://acl.ldc.upenn.edu/C/C92/C92-2082.pdf.
[Karlgren] Karlgren, J. and Cutting, D. Recognizing Text Genres with Simple Metrics Using Discriminant Analysis. In Proceedings of the 15th International Conference on Computational Linguistics (COLING), Kyoto, 1994, vol. 2, p. 1071-1075. (Эл. версия: http://www.sics.se/~jussi/Papers/1994_Coling_Kyoto_l/cmplglixcol.ps)
[FSNLP] Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing. Chapter 5: Collocations. Эл. версия главы.
[IIR] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2007. Главы будущей книги
[Sato] S. Sato and Y. Sasaki. 2003. Automatic collection ofrelated terms from the web. In Proc. 41st ACL, p. 121–124.
[Sebastiani] Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1–47.
[Segalovich] Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine, http://company.yandex.ru/articles/iseg-las-vegas.html + обсуждение в форуме.
[Zamir] Zamir O., Etzioni O. Web Document Clustering: A Feasibility Demonstration. In Proc. SIGIR'98.
Ссылки
Задания для практических занятий
Задания для лабораторных работ (второй полусеместр)
П.И.Браславский
e-mail: pb(at)imach(dot)uran(dot)ru
Адрес этого документа: http://www.kansas.ru/ai2006/index.html