Программа курса
"Избранные прикладные задачи информационного поиска"

Весенний семестр 2009

ШАД Яндекса: 10, 11.02; 10, 11.03; 7, 8.04; 19, 20.05

Матмех УрГУ: понедельник, 1 пара (9.00), ауд. 611.

Объединенная группа для Мск и Екб: http://groups.google.com/group/ipzip2009 (здесь есть ссылки на данные)

Для получения зачета студенты ШАДа должны выполнить 3 (три) практических задания; студенты УрГУ - 3 (три из четырех).
В ШАДе в проведении практических занятий и семинаров помогают Александр Болховитянов и Алексей Бродский.
В УрГУ в проведении практических занятий и семинаров помогают Сергей Швейкин (shvejkin (at) gmail (dot) com) и Иван Бурмистров (burmistrov (dot) ivan (at) gmail (dot) com).

Экспресс-введение в информационный поиск

Краткая история дисциплины, перспективы развития информационного поиска (ИПС). Спектр и специфика задач современного ИП. Архитектура информационно-поисковой системы (ИПС).

Оценка методов поиска. Принципы, метрики, кампании.

Обработка естественного языка в задачах ИП. Уровни обработки. Морфологический анализ: подходы, приложения, примеры.

Слайды

Литература

  1. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008. Эл. версия: http://www.informationretrieval.org
  2. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. (В качестве "исторической справки". - ПБ)
  3. R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, 1999.
  4. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Статья с WWW7, эл. версия http://www-db.stanford.edu/pub/papers/google.pdf
  5. Daciuk J. et al. Incremental Construction of Minimal Acyclic Finite-State Automata. Computational Linguistics, Vol. 26, No. 1.
  6. Сегалович И.В. Как работают поисковые системы //Мир Internet, - 2002. - №10. (Электронная версия: http://www.dialog-21.ru/directions/Segalovich_vorprint.doc)
  7. Сокирко А. В. Морфологические модули на сайте www.aot.ru //Материалы конференции "Диалог-2004". Эл. версия: http://www.dialog-21.ru/Archive/2004/Sokirko.htm
  8. Попов Э.В. Общение с ЭВМ на естественном языке. - М.: Наука, 1982. (В качестве "исторической справки". - ПБ)

Ссылки

  1. РОМИП, http://romip.ru
  2. CLEF, http://clef-campaign.org/
  3. TREC, http://trec.nist.gov
  4. Gubin, Maxim. Data Structures in IR (course slides + video)
  5. Кураленок, Игорь. Оценка эффективности систем текстового поиска (слайды и видео)
  6. Морфологический модуль mystem, http://company.yandex.ru/technology/mystem/

Выделение ключевых слов и фраз из текстов

Постановка задачи, области приложения. Выделение слов и фраз из корпуса текстов. Закон Ципфа, CF, IDF, RIDF. Выделение словосочетаний: прямой подсчет частоты, морфологические шаблоны, проверка статистических гипотез. Примеры экспериментов по выделению терминов из научных текстов. Выделение слов и фраз из отдельного документа. TF, графические подсказки. Примеры подходов к выделению ключевых фраз и фраз для привязки рекламных объявлений. Выделение связей между словами на основе шаблонов и статистики совместной встречаемости.

Слайды
Практические задания

Литература

  1. Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing, 1999.Chapter 5: Collocations.
  2. Turney, P.D. Learning to Extract Keyphrases from Text. National Research Council, Institute for Information Technology, Technical Report ERB-1057, 1999.
  3. Frank E., Paynter G. W., Witten I. H., Gutwin C., and Nevill-Manning C. G. Domain-specific keyphrase extraction. In Proc. of IJCAI-99, pages 668–673, 1999.
  4. Hearst M. A. Automatic Acquisition of Hyponyms from Large Text Corpora//Proc. of the 14th International Conference on Computational Linguistics, Nantes, France, 1992. (PDF.
  5. Wen-tau Yih, Joshua Goodman, Vitor R. Carvalho Finding Advertising Keywords on Web Pages, WWW2006. (PDF)
  6. Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. - С. 67-74. (PDF)
  7. Браславский П., Соколов Е. Автоматическое извлечение терминологии с использованием поисковых машин интернета//Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2007. М.: Изд-во РГГУ, 2007. С. 89-94. (PDF)
  8. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста// Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. - М.: Изд-во РГГУ, 2006. - С. 88-94. (PDF)
  9. Добров Б.Н., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003. СПб, 2003. С. 201-210. (PDF)
  10. Капустин В.А., Ямсен А.А. Ранговая статистика встречаемости слов в большой текстовой коллекции. Труды RCDL'2006. (PDF)

Ссылки

  1. TermExtractor Demo, http://lcl2.uniroma1.it/termextractor/
  2. Terminology Extraction, http://labs.translated.net/terminology-extraction/
  3. KEA, http://www.nzdl.org/Kea/
  4. Peter D. Turney Homepage, http://www.apperceptual.com/

Автоматическое реферирование текстовых документов

Области применения методов автоматического реферирования (АР). Типы рефератов, типы документов, различные постановки задачи. Подходы к АР: формирование реферата, выделение фрагментов. Используемые параметры/признаки. Параметрические методы. Методы на основе машинного обучения. Многодокументное реферирование. Постобработка рефератов. Оценка качества реферирования. Инициативы: DUC, TAC, РОМИП. Специальный случай: реферирование по запросу (сниппеты МП). Проблема производительности. Оценка качества.

Слайды
Практические задания

Литература

  1. Barzilay, Regina and Michael Elhadad. Using Lexical Chains for Text Summarization. in Proceedings of the Intelligent Scalable Text Summarization Workshop (ISTS’97), ACL Madrid, 1997.
  2. Tombros, A. & Sanderson, M. (1998). Advantages of Query Biased Summaries in Information Retrieval. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 24-28, 1998, Melbourne, Australia, 2-10.
  3. Turpin A. et al. Fast Generation of Result Snippets in Web Search, SIGIR 2007. (PDF, PPT)
  4. White, R. W., Jose, J. M., & Ruthven, I. (2003). A task-oriented study on the influencing effects of query-biased summarisation in web searching. In Information Processing & Management, 39, 707-733.
  5. Брасласвский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов //Труды РОМИП-2005. СПб., 2005. С. 40-53. (PDF)
  6. Браславский П., Густелев В. Система автоматического реферирования новостных сообщений на основе машинного обучения//Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 9-й Всеросс. конф. RCDL'2007 (Переславль-Залесский, Россия, 15-18 октября 2007 г.). Переславль-Залесский: Изд-во "Университет города Переславля", 2007. С. 142-147. (PDF)

Ссылки

  1. Document Understanding Conference, http://duc.nist.gov
  2. Text Analysis Conference, Summarization Track
  3. Extractor Online Demo, http://www.extractorlive.com/on_line_demo.html
  4. Text Summarization Resources, http://www.summarization.com/ (partially outdated)
  5. Horacio Saggion's Web Page, http://www.dcs.shef.ac.uk/~saggion/ (various slides on summarization)
  6. Дорожка контекстно-зависимого аннотирования текстовых документов, РОМИП, http://romip.ru/ru/2008/tracks/annotation.html
  7. Filippova, Katja. Automatic Text Summarization (presentation @ NLP seminar, SPb, Feb 25, 2009), slides

Обработка поисковых запросов

Запросы: особенности данных и методы работы с ними. Запросы и потребности пользователей. "Классические" операции с запросами: расширение/перевормулировка, обратная связь по релевантности. Сегментация. Тематическая классификация. Выделение близких (ассоциированных) запросов. Динамика поисковых запросов. Перевод на другой язык. Исправление опечаток в запросах.

Литература

  1. Backstrom L. et al. Spatial Variation in Search Engine Queries, WWW2008.
  2. Maslov M., Golovko A., Segalovich I., Braslavski P. Extracting news-related queries from web query log. WWW '06, 931-932.
  3. Wang J., Oard D.W. Combining Bidirectional Translation and Synonymy for Cross-Language Information Retrieval, SIGIR'06.
  4. Bin Tan, Fuchun Peng Unsupervised Query Segmentation Using Generative Language Models and Wikipedia, WWW2008.
  5. Steven M. Beitzel et al. Hourly Analysis of a Very Large Topically Categorized Web Query Log, SIGIR'04.
  6. Henzinger, M. et al. Query-Free News Search, WWW2003, 1-10.
  7. Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in KDDCUP 2005, SIGKDD Explorations 7(2).(PDF)
  8. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008. Эл. версия: http://www.informationretrieval.org Ch. 3, 9.
  9. Tan B., Peng F. Unsupervised Query Segmentation Using Generative Language Models and Wikipedia, WWW2008.
  10. K. M. Risvik, T. Mikolajewski, and P. Boros. Query Segmentation for Web Search. WWW2003.
  11. S. Bergsma and Q. I. Wang. Learning Noun Phrase Query Segmentation. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages 819–826, 2007.
  12. S. Beitzel et al. Automatic web query classification using labeled and unlabeled training data. SIGIR 2005 poster.

Ссылки

  1. Query Log Analysis Workshop @ WWW2007, http://querylogs2007.webir.org/
  2. KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html
  3. WSCD09: Workshop on Web Search Click Data 2009, http://research.microsoft.com/users/nickcr/wscd09/
  4. Байтин А. Исправление поисковых запросов в Яндексе. Презентация на РИТ'2008. (слайды)

Слайды
Практические задания


Стилистический анализ документов

Жанры/стили текстовых документов. Тема/жанр. Автоматические методы: определения авторства, категоризация по жанрам, кластеризация, удобочитаемость, гендерные особенности, тон/настроение. Жанры Веб-документов. Жанровые признаки. Жанры в информационном поиске: явное/неявное использование; интерфейс/ранжирование.

Литература

см. http://www.webgenrewiki.org/index.php5/References

  1. Abdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005)
  2. Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop "Towards Genre-Enabled Search Engines: The Impact of NLP", 2007.
  3. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005.
  4. Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004.
  5. Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994.
  6. Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05
  7. Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.
  8. Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004.
  9. Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004.
  10. Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001.
  11. Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.
  12. Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005)
  13. Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004)
  14. Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001)
  15. Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996)
  16. Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007.
  17. Браславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000.
  18. Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов //Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. семинара "Диалог-2002". Т. 2. - М.: Наука, 2002. - С.83-93.
  19. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации//Проблемы передачи информации, 2001, т.37, вып.2, с.96-108.
  20. Хмелев Д. Распознавание автора текста с использованием цепей А.А. Маркова //Вестник МГУ, сер.9: Филология, N 2, 2000, с.115-126.

Ссылки

  1. WebGenre Wiki, http://www.webgenrewiki.org/
  2. Web Genre Analysis Project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.html

Слайды
Практические задания


География в поиске

Использование географической информации в информационном поиске. Аспекты географии: пользователи, запросы, документы, сайты. Механизмы определения местоположения пользователя. География ресурса: положение провайдера, локализация контента, география предоставления сервиса. Методы/ресурсы для выделения географической информации. Запросы: локализуемые, локально-специфичные. География в задачах CLEF.

Литература

  1. Amitay E. et al. Web-a-Where: Geotagging Web Content, SIGIR'2004.
  2. Ding J., Gravano L., Shivakumar N.: Computing Geographical Scopes of Web Resources, VLDB2000.
  3. Chuang Wang et al. Web Resource Geographic Location Classification and Detection, WWW2005
  4. Агеев М. и др. Некоторые способы определения географической привязки IP адресов, Интернет-математика, 2005.
  5. Pyalling A., Maslov M., Braslavski P. Automatic geotagging of Russian web sites, WWW2006, 965-966.
  6. Jones R., Hassan A., Diaz F. Geographic Features in Web Search Retrieval. GIR'08.
  7. Lars Backstrom, Jon Kleinberg, Ravi Kumar, Jasmine Novak. Spatial Variation in Search Engine Queries. WWW 2008.
  8. Michael J. Welch, Junghoo Cho. Automatically Identifying Localizable Queries. SIGIR’08.
  9. Srinivas Vadrevu, Ya Zhang, Belle Tseng, Gordon Sun, Xin Li. Identifying Regional Sensitive Queries in Web Search. WWW 2008 poster.

Ссылки

  1. LocWeb 2008, http://medien.informatik.uni-oldenburg.de/LocWeb2008/
  2. LocWeb 2009, http://ifgi.uni-muenster.de/0/locweb2009/
  3. GIR 2008, http://www.geo.unizh.ch/~rsp/gir08/ (+ см. предыдущие семинары GIR)
  4. GeoCLEF, http://www.uni-hildesheim.de/geoclef/

Слайды


П.И.Браславский
e-mail: pb(at)yandex(dash)team(dot)ru

Адрес этого документа: http://www.kansas.ru/ir2009/index.html

Последнее изменение 25.05.2009