КУРС ЗАКОНЧЕН
Курс "Информационный поиск"
Курс поддержан грантом фонда "Династия".
Лектор: Павел Браславский
Контакты:
электронная почта: pbras [эт] яндекс [точка] ру, тема [ir_spb]
рассылка: http://bit.ly/iir2014
Курс состоит из 4 блоков лекций (по две пары в день, начало в 15.50), практических занятий и семинаров. Занятия проходят в главном корпусе ИТМО, ауд. 146.
Критерии оценки
5 (отлично) -- выполнены и зачтены ВСЕ практические задания, контрольные, итоговая контрольная работа, активная работа на семинарах.
4 (хорошо) -- аналогично 5, но есть замечания к выполнению практических заданий, отчетам, контрольным работам и работе на семинаре.
3 (удовлетворительно) -- сделаны все практические задачи, по ним предоставлены отчеты. На основании отчетов, результатов контрольных работ и участия/неучастия в семинарах можно сделать вывод, что нет хорошего понимания содержания выполненных заданий и лекционного материала.
Ведомость (ИТМО).
Итоговая письменная контрольная работа включает несколько задач, аналогичных рассмотренным на семинарах, а также вопросы по материалам лекций.
Как улучшить оценку? Принимать активное участие в решение задач на семинарах, писать контрольные, делать доклады по результатам выполнения практических заданий, участвовать в обсуждении вопросов, возникающих у коллег по курсу в процессе выполнения практик (можно отмечаться в списке вопросов к семинару).
Расписание
Программа курса
Блок 1 |
- Cовременный информационный поиск: краткое введение.
Прямой поиск и поиск по индексу. Матрица "термин-документ" и инвертированный индекс . Словарь и списки словопозиций. Булев поиск, обработка булевых запросов. Фразовые запросы, запросы с расстояниями. Биграммный индекс, координатный индекс.
- Основные этапы построения индекса. Выделение лексем, стоп-слова, нормализация терминов. Лингвистическая обработка. Распределенное построение индекса: MapReduce.
- Русская морфология для задач информационного поиска. Стемминг и лемматизация. Нормализация терминов на основе правил и статистики; данные для морфологического анализа. Существующие библиотеки морфологического анализа для русского языка.
- Законы Хипса и Ципфа.
|
ВИП: Гл. 1, Гл. 2, 3.1, 4.1, 4.2, 4.4, 5.1
Слайды авторов ВИП: 1,
2,
3.
Cлайды Джеффа Дина про MapReduce (2004)
Слайды ПБ: введение, морфология
|
Блок 2 |
- Поиск с ранжированием. Взвешенное зонное ранжирование.
- Модель векторного пространства. Частота по коллекции и документная частота. Подход tf*idf и его варианты. Обратная связь по релевантности.
- Вероятностная модель информационного поиска. Приницп вероятностного ранжировнаия. Бинарная модель независимости. Okapi BM25.
- Языковые модели в информационном поиске. Сглаживание. Варианты сопоставления документа и запроса. Модели перевода.
- Оценка информационного поиска. Лабораторная парадигма. Релевантность. Коллекция, задания, метрики. Метрики на множестве документов: точность, полнота, F-мера. Метрики на ранжированном списке результатов: precision@k, MAP, 11-точечный график, R-precision, MRR, DCG, nDCG. Организация оценки. Согласованность оценок. Краудсорсинг.
|
ВИП: Гл. 6, 9, 11, 12, 8.
Слайды авторов ВИП: 1, 2, 3, 4, 5, 6.
Слайды про РОМИП
|
Блок 3 |
- Согласие асессоров, каппа-статистика. Недостатки "лабораторной парадигмы" оценки информационного поиска. Использование кликов для оценки качества поиска ("переплетение" ранжированных списков, A/B тестирование).
- Эффективный поиск. Сжатие словаря и индекса. Эффективное вычисление соответствия документа запросу: экономия на сортировке результатов; экономия на вычислении соответствия документа запросу (сортировка списков словопозиций, двухуровневые индексы, подход WAND и др.). Сокращение индекса (index pruning).
- Особенности веб-поиск, экономическая модель веб-поиска. Использование ссылочной структуры веба. Компактное представление веб-графе. Алгоритм PageRank.
- Машинное обучение ранжированию. Подходы и методы, доступные данные и библиотеки.
|
ВИП: 8.5, 8.6, 5, 7.1, 19.1-19.4, 20.4, 21.1, 21.2.
Слайды авторов ВИП: 1, 2, 3, 4, 5.
Слайды Игоря Кураленка
|
Блок 4 |
- Интерфейс информационно-поисковых систем. Представление результатов поиска: список результатов, сниппеты. Методы автоматического реферирования и другие подходы к генерации сниппетов, оценка качества сниппетов.
- Логи поисковых запросов: особенности данных, доступные коллекции. Обработка поисковых запросов: сегментация запросов, тематическая классификация запросов, нахождение близких запросов. Исправление опечаток в запросах. Запросы-вопросы.
- (*)Жанры и другие нетематические признаки в задачах информационного поиска. Жанровая классификация, показатели удобочитаемости, применение в поиске. Определение автора документа, определение пола автора документа.
- (*)Тезаурусы в задачах информационного поиска и автоматической обработки текста.
|
ВИП: 8.7, 15.3
Слайды авторов ВИП (results presentation).
Автоматическое реферирование и сниппеты, Search snippets evaluation @ Yandex
Анализ запросов
Genres in IR
|
Практические задания
Задание 1. "Разминка"
- Выберете на http://db.chgk.info/ 10-20 случайных вопросов.
- Зарегистрируйтесь в поисковой системе, включите запись запросов (если отключали). Историю запросов можно посмотреть и настроить по адресам https://history.google.com/history/, http://nahodki.yandex.ru/.
- Попробуйте найти ответ на вопрос в интернете (если вы знаете ответ без интернета или по точному совпадению с вопросом сразу находится ответ - переходите к следующему). Не тратьте больше 10 минут на вопрос. Используйте минимум две поисковые машины (для разных вопросов).
- Оформите лог поиска (в том числе для вопросов, ответ на которые не удалось найти): запросы с временными метками, действия и рассуждения между запросами (запрос - время, "посмотрел на сниппеты, понял, что ничего подходящего нет, новый запрос"; запрос - время; "в документе на позиции 3 - URL - нашел список жен Петра I"; запрос - время).
- По результатам выполнения задания сформулируйте критерии для оценки качества поисковой системы. Сравните использованные системы.
Задание 2. Морфологический анализ
Ознакомьтесь с морфологическими анализаторами (настройки, параметры, форматы входных и выходных данных):
Поэкспериментируйте с документами разных жанров: художественная литература, научные статьи, сообщения на форумах. Обратите внимание, как обрабатываются редкие слова, слова с опечатками, иностранные слова, имена собственные. Предложите методику оценки морфологического анализатора, сравните по этой методике любые два анализатора.
Результаты оформите в виде отчета (1-2 страницы PDF).
Задание 3. Анализ коллекции. Частотный словарь. Законы Хипса и Ципфа.
1) Постройте по данным BY.WEB таблицу, аналогичную таблицам 4.2 и 5.1 книги "Введение в информационный поиск". Обработанная коллекция: bit.ly/by_web
Данные, которые должны быть представлены в таблице:
- Количество документов
- Средний размер документа в байтах
- Средний размер документа в байтах после удаления разметки
- Средняя длина документа в словах
- Средняя длина слова в буквах
- Размер коллекции в словах
- Размер словаря коллекции (в т.ч. без чисел/после свертывания регистра/только слова из русских букв/после лемматизации)
- Словопозиции (в т.ч. без чисел/без стоп-слов/только слова из русских букв)
Стоп-слова раньше можно быть взять из дистрибутива Я.Сервера (stopword.lst), сейчас можно просто найти в сети, например здесь.
2)
Постройте зависимость размера словаря от размера коллекции. Аппроксимируйте прямой в log-log координатах. Нарисуйте график.
Постройте частотный словарь коллекции, зависимость частоты от ранга в словаре. Аппроксимируйте прямой в log-log координатах. Нарисуйте график.
Проанализируйте результаты.
Задание 4. Индексирование коллекции BY.WEB
Проиндексировать коллекцию By.Web (см. описание формата) одним из поисковых "движков":
В отчете описать предпринятые шаги, исползованные настройки, возникшие проблемы и их решение, а также указать время индексирования.
Задание 5. Оценка качества стандартного решения
- Получите результаты поиска по созданному индексу для запросов из списка (см. описание формата).
- На основе таблиц релевантности (бинарные оценки) для коллекции By.Web 2008 и 2009 годов рассчитайте метрики качества: p@10, MAP, R-precision, 11-точечный график, MRR.
Сравните оценки для
- "сильных" и "слабых" требований к релевантности ("сильная релевантность"/AND: все асессоры оценили документ как релевантный; "слабая релевантность"/OR: хотя бы один асессор оценил документ как релевантный);
- 2008 и 2009 годов;
- с/без русской морфологии.
Для рассчета метрик можно перевести данные в формат TREC и воспользоваться скриптом trec_eval, см. описание.
Задание 6. Машинное обучение ранжированию на данных "Интернет-математики 2009"
Ознакомьтесь с задачей и форматом данных конкурса "Интернет-математика 2009". Постройте функцию ранжирования (см. ссылки на библиотеки ниже) на основе обучающего множества, примените ее к тестовым данным, загрузите решение. В отчете опишите методы, приведите ваши результаты со страницы рейтинга.
Задание 7. Машинное обучение ранжированию на данных РОМИП By.Web
Реализуйте вычисление и сохранение значений признаков (features) в индексе для пар "запрос-документ", которые могут быть полезным сигналом для ранжирования (в качестве примера см. список стандартных признаков коллекции LETOR). Используйте оценки релевантности пар "запрос-документ" для коллекции By.Web 2008 года для обучения функции ранжирования; оценки 2009 года -- для тестирования. Вычислите значений метрик качества поиска (см. задание 5), сравните со стандартным решением. (См. ссылки на библиотеки ранжирования ниже.)
Литература
Основная книжка:
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze,
Introduction to Information Retrieval, Cambridge University Press.
2008. http://nlp.stanford.edu/IR-book/; курс авторов (вкл. слайды и ссылки)
Русский перевод:
http://www.williamspublishing.com/Books/978-5-8459-1623-5.html
Дополнительно:
Ian H. Witten, Alistair Moffat, and Timothy C.
Bell Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan
Kaufmann Publishing, 1999. http://www.cs.mu.oz.au/mg/
Ricardo Baeza-Yates, Berthier Ribeiro-Neto
Modern Information Retrieval: The Concepts and Technology behind Search, 2/E
Addison-Wesley, 2011
[на амазоне]
W. Bruce Croft, Donald Metzler, Trevor Strohman. Search Engines: Information Retrieval in Practice, 2009. http://www.search-engines-book.com/
Ссылки
- Словерь Зализняка
- Слайды Алексея Зобнина, в том числе про машинную морфологию
- Стеммер Портера
- Stemka -- статистический стеммер Андрея Коваленко.
- Jeffrey Dean and Sanjay Ghemawat. MapReduce: simplified data processing on large clusters. OSDI, 2004.
- Ляшевская О. и др. Оценка методов автоматического анализа текста: морфологические парсеры русского языка. Диалог'2010. (PDF) -- о методах оценки морфологических анализаторов
- Broder, Andrei Z., et al. "Efficient query evaluation using a two-level retrieval process." Proceedings of the CIKM'2003. (PDF) -- метод WAND
- Boldi, Paolo, and Sebastiano Vigna. "The webgraph framework I: compression techniques." Proceedings of WWW'2004. (PDF) -- метод сжатия веб-графа
- Библиотеки для машинного обучения ранжированию: SVMrank, RankLib, jforests.
- Обучение ранжирующей функции в Terrier.
- britta weber. Scoring for human beings -- Презентация про настройку релевантности в Elasticsearch
- Doug Turnbull. Build your own Custom Lucene query and scorer -- что нужно сделать, чтобы изменить стандартное ранжирование в lucene
- Андрей Гулин. Matrixnet -- презентация
- LETOR: слайды Tie-Yan Liu
- Tombros, A. & Sanderson, M. (1998). Advantages of Query Biased Summaries in Information Retrieval. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 24-28, 1998, Melbourne, Australia, 2-10.
- Turpin A. et al. Fast Generation of Result Snippets in Web Search, SIGIR 2007. (PDF)
- White, R. W., Jose, J. M., & Ruthven, I. (2003). A task-oriented study on the influencing effects of query-biased summarisation in web searching. In Information Processing & Management, 39, 707-733.
- Браславский П., Густелев В. Система автоматического реферирования новостных сообщений на основе машинного обучения//Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 9-й Всеросс. конф. RCDL'2007 (Переславль-Залесский, Россия, 15-18 октября 2007 г.). Переславль-Залесский: Изд-во "Университет города Переславля", 2007. С. 142-147. (PDF)
- Document Understanding Conference, http://duc.nist.gov
- Text Analysis Conference, Summarization Track
- Дорожка контекстно-зависимого аннотирования текстовых документов, РОМИП, http://romip.ru/ru/2008/tracks/annotation.html
- Filippova, Katja. Automatic Text Summarization (presentation @ NLP seminar, SPb, Feb 25, 2009), slides + video
- История про лог AOL 2006
- Поиск по логу AOL2006
- KDD Cup 2005
- Microsoft Web N-gram Services
- Jiang D. et al. Web Search/Browse Log Mining: Challenges, Methods, and Applications (slides)
- Курс "Онтологии и тезаурусы: модели, инструменты, приложения" (лекции 8-10)
Адрес этого документа: http://www.kansas.ru/ir_spb/index_itmo.html
Последнее изменение 22.12.2014