Программа курса
"Избранные прикладные задачи информационного поиска"
Весенний семестр 2009
ШАД Яндекса: 10, 11.02; 10, 11.03; 7, 8.04; 19, 20.05
Матмех УрГУ: понедельник, 1 пара (9.00), ауд. 611.
Объединенная группа для Мск и Екб: http://groups.google.com/group/ipzip2009 (здесь есть ссылки на данные)
Для получения зачета студенты ШАДа должны выполнить 3 (три) практических задания; студенты УрГУ - 3 (три из четырех).
В ШАДе в проведении практических занятий и семинаров помогают Александр Болховитянов и Алексей Бродский.
В УрГУ в проведении практических занятий и семинаров помогают Сергей Швейкин (shvejkin (at) gmail (dot) com) и Иван Бурмистров (burmistrov (dot) ivan (at) gmail (dot) com).
Экспресс-введение в информационный поиск
Краткая история дисциплины, перспективы развития информационного поиска (ИПС). Спектр и специфика задач современного ИП. Архитектура информационно-поисковой системы (ИПС).
Оценка методов поиска. Принципы, метрики, кампании.
Обработка естественного языка в задачах ИП. Уровни обработки. Морфологический анализ: подходы, приложения, примеры.
Слайды
Литература
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008. Эл. версия: http://www.informationretrieval.org
- Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. (В качестве "исторической справки". - ПБ)
- R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, 1999.
- Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Статья с WWW7, эл. версия http://www-db.stanford.edu/pub/papers/google.pdf
- Daciuk J. et al. Incremental Construction of Minimal Acyclic Finite-State Automata. Computational Linguistics, Vol. 26, No. 1.
- Сегалович И.В. Как работают поисковые системы //Мир Internet, - 2002. - №10. (Электронная версия: http://www.dialog-21.ru/directions/Segalovich_vorprint.doc)
- Сокирко А. В. Морфологические модули на сайте www.aot.ru //Материалы конференции "Диалог-2004". Эл. версия: http://www.dialog-21.ru/Archive/2004/Sokirko.htm
- Попов Э.В. Общение с ЭВМ на естественном языке. - М.: Наука, 1982. (В качестве "исторической справки". - ПБ)
Ссылки
- РОМИП, http://romip.ru
- CLEF, http://clef-campaign.org/
- TREC, http://trec.nist.gov
- Gubin, Maxim. Data Structures in IR (course slides + video)
- Кураленок, Игорь. Оценка эффективности систем текстового поиска (слайды и видео)
- Морфологический модуль mystem, http://company.yandex.ru/technology/mystem/
Выделение ключевых слов и фраз из текстов
Постановка задачи, области приложения. Выделение слов и фраз из корпуса текстов. Закон Ципфа, CF, IDF, RIDF. Выделение словосочетаний: прямой подсчет частоты, морфологические шаблоны, проверка статистических гипотез. Примеры экспериментов по выделению терминов из научных текстов. Выделение слов и фраз из отдельного документа. TF, графические подсказки. Примеры подходов к выделению ключевых фраз и фраз для привязки рекламных объявлений. Выделение связей между словами на основе шаблонов и статистики совместной встречаемости.
Слайды
Практические задания
Литература
- Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing, 1999.Chapter 5: Collocations.
- Turney, P.D. Learning to Extract Keyphrases from Text. National Research Council, Institute for Information Technology, Technical Report ERB-1057, 1999.
- Frank E., Paynter G. W., Witten I. H., Gutwin C., and Nevill-Manning C. G. Domain-specific keyphrase extraction. In Proc. of IJCAI-99, pages 668–673, 1999.
- Hearst M. A. Automatic Acquisition of Hyponyms from Large Text Corpora//Proc. of the 14th International Conference on Computational Linguistics, Nantes, France, 1992. (PDF.
- Wen-tau Yih, Joshua Goodman, Vitor R. Carvalho Finding Advertising Keywords on Web Pages, WWW2006. (PDF)
- Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. - С. 67-74. (PDF)
- Браславский П., Соколов Е. Автоматическое извлечение терминологии с использованием поисковых машин интернета//Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2007. М.: Изд-во РГГУ, 2007. С. 89-94. (PDF)
- Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста// Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. - М.: Изд-во РГГУ, 2006. - С. 88-94. (PDF)
- Добров Б.Н., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003. СПб, 2003. С. 201-210. (PDF)
- Капустин В.А., Ямсен А.А. Ранговая статистика встречаемости слов в большой текстовой коллекции. Труды RCDL'2006. (PDF)
Ссылки
- TermExtractor Demo, http://lcl2.uniroma1.it/termextractor/
- Terminology Extraction, http://labs.translated.net/terminology-extraction/
- KEA, http://www.nzdl.org/Kea/
- Peter D. Turney Homepage, http://www.apperceptual.com/
Автоматическое реферирование текстовых документов
Области применения методов автоматического реферирования (АР). Типы рефератов, типы документов, различные постановки задачи. Подходы к АР: формирование реферата, выделение фрагментов. Используемые параметры/признаки. Параметрические методы. Методы на основе машинного обучения. Многодокументное реферирование. Постобработка рефератов. Оценка качества реферирования. Инициативы: DUC, TAC, РОМИП. Специальный случай: реферирование по запросу (сниппеты МП). Проблема производительности. Оценка качества.
Слайды
Практические задания
Литература
- Barzilay, Regina and Michael Elhadad. Using Lexical Chains for Text Summarization. in Proceedings of the
Intelligent Scalable Text Summarization Workshop (ISTS’97), ACL Madrid, 1997.
- Tombros, A. & Sanderson, M. (1998). Advantages of Query Biased Summaries in Information Retrieval. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 24-28, 1998, Melbourne, Australia, 2-10.
- Turpin A. et al. Fast Generation of Result Snippets in Web Search, SIGIR 2007. (PDF, PPT)
- White, R. W., Jose, J. M., & Ruthven, I. (2003). A task-oriented study on the influencing effects of query-biased summarisation in web searching. In Information Processing & Management, 39, 707-733.
- Брасласвский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов //Труды РОМИП-2005. СПб., 2005. С. 40-53. (PDF)
- Браславский П., Густелев В. Система автоматического реферирования новостных сообщений на основе машинного обучения//Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 9-й Всеросс. конф. RCDL'2007 (Переславль-Залесский, Россия, 15-18 октября 2007 г.). Переславль-Залесский: Изд-во "Университет города Переславля", 2007. С. 142-147. (PDF)
Ссылки
- Document Understanding Conference, http://duc.nist.gov
- Text Analysis Conference, Summarization Track
- Extractor Online Demo, http://www.extractorlive.com/on_line_demo.html
- Text Summarization Resources, http://www.summarization.com/ (partially outdated)
- Horacio Saggion's Web Page, http://www.dcs.shef.ac.uk/~saggion/ (various slides on summarization)
- Дорожка контекстно-зависимого аннотирования текстовых документов, РОМИП, http://romip.ru/ru/2008/tracks/annotation.html
- Filippova, Katja. Automatic Text Summarization (presentation @ NLP seminar, SPb, Feb 25, 2009), slides
Обработка поисковых запросов
Запросы: особенности данных и методы работы с ними. Запросы и потребности пользователей. "Классические" операции с запросами: расширение/перевормулировка, обратная связь по релевантности. Сегментация. Тематическая классификация. Выделение близких (ассоциированных) запросов. Динамика поисковых запросов. Перевод на другой язык. Исправление опечаток в запросах.
Литература
- Backstrom L. et al. Spatial Variation in Search Engine Queries, WWW2008.
- Maslov M., Golovko A., Segalovich I., Braslavski P. Extracting news-related queries from web query log. WWW '06, 931-932.
- Wang J., Oard D.W. Combining Bidirectional Translation and Synonymy for Cross-Language Information Retrieval, SIGIR'06.
- Bin Tan, Fuchun Peng Unsupervised Query Segmentation Using Generative Language Models and Wikipedia, WWW2008.
- Steven M. Beitzel et al. Hourly Analysis of a Very Large Topically Categorized Web Query Log, SIGIR'04.
- Henzinger, M. et al. Query-Free News Search, WWW2003, 1-10.
- Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in KDDCUP 2005, SIGKDD Explorations 7(2).(PDF)
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008. Эл. версия: http://www.informationretrieval.org Ch. 3, 9.
- Tan B., Peng F. Unsupervised Query Segmentation Using Generative Language Models and Wikipedia, WWW2008.
- K. M. Risvik, T. Mikolajewski, and P. Boros. Query Segmentation for Web Search. WWW2003.
- S. Bergsma and Q. I. Wang. Learning Noun Phrase Query Segmentation. In Proceedings of the 2007 Joint Conference
on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages 819–826, 2007.
- S. Beitzel et al. Automatic web query classification using labeled and unlabeled training data. SIGIR 2005 poster.
Ссылки
- Query Log Analysis Workshop @ WWW2007, http://querylogs2007.webir.org/
- KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html
- WSCD09: Workshop on Web Search Click Data 2009, http://research.microsoft.com/users/nickcr/wscd09/
- Байтин А. Исправление поисковых запросов в Яндексе. Презентация на РИТ'2008. (слайды)
Слайды
Практические задания
Стилистический анализ документов
Жанры/стили текстовых документов. Тема/жанр. Автоматические методы: определения авторства, категоризация по жанрам, кластеризация, удобочитаемость, гендерные особенности, тон/настроение. Жанры Веб-документов. Жанровые признаки. Жанры в информационном поиске: явное/неявное использование; интерфейс/ранжирование.
Литература
см. http://www.webgenrewiki.org/index.php5/References
- Abdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005)
- Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop "Towards Genre-Enabled Search Engines: The Impact of NLP", 2007.
- Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005.
- Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004.
- Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994.
- Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05
- Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.
- Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004.
- Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004.
- Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001.
- Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.
- Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005)
- Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004)
- Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001)
- Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996)
- Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007.
- Браславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000.
- Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов //Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. семинара "Диалог-2002". Т. 2. - М.: Наука, 2002. - С.83-93.
- Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации//Проблемы передачи информации, 2001, т.37, вып.2, с.96-108.
- Хмелев Д. Распознавание автора текста с использованием цепей А.А. Маркова //Вестник МГУ, сер.9: Филология, N 2, 2000, с.115-126.
Ссылки
- WebGenre Wiki, http://www.webgenrewiki.org/
- Web Genre Analysis Project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.html
Слайды
Практические задания
География в поиске
Использование географической информации в информационном поиске. Аспекты географии: пользователи, запросы, документы, сайты. Механизмы определения местоположения пользователя. География ресурса: положение провайдера, локализация контента, география предоставления сервиса. Методы/ресурсы для выделения географической информации. Запросы: локализуемые, локально-специфичные. География в задачах CLEF.
Литература
- Amitay E. et al. Web-a-Where: Geotagging Web Content, SIGIR'2004.
- Ding J., Gravano L., Shivakumar N.: Computing Geographical Scopes of Web Resources, VLDB2000.
- Chuang Wang et al. Web Resource Geographic Location Classification and Detection, WWW2005
- Агеев М. и др. Некоторые способы определения географической привязки IP адресов, Интернет-математика, 2005.
- Pyalling A., Maslov M., Braslavski P. Automatic geotagging of Russian web sites, WWW2006, 965-966.
- Jones R., Hassan A., Diaz F. Geographic Features in Web Search Retrieval. GIR'08.
- Lars Backstrom, Jon Kleinberg, Ravi Kumar, Jasmine Novak. Spatial Variation in Search Engine Queries. WWW 2008.
- Michael J. Welch, Junghoo Cho. Automatically Identifying Localizable Queries. SIGIR’08.
- Srinivas Vadrevu, Ya Zhang, Belle Tseng, Gordon Sun, Xin Li. Identifying Regional Sensitive Queries in Web Search. WWW 2008 poster.
Ссылки
- LocWeb 2008, http://medien.informatik.uni-oldenburg.de/LocWeb2008/
- LocWeb 2009, http://ifgi.uni-muenster.de/0/locweb2009/
- GIR 2008, http://www.geo.unizh.ch/~rsp/gir08/ (+ см. предыдущие семинары GIR)
- GeoCLEF, http://www.uni-hildesheim.de/geoclef/
Слайды
П.И.Браславский
e-mail: pb(at)yandex(dash)team(dot)ru
Адрес этого документа: http://www.kansas.ru/ir2009/index.html
Последнее изменение 25.05.2009