Практические задания по курсу
"Избранные прикладные задачи информационного поиска"

Страница курса: http://www.kansas.ru/ir2009/
Группа: http://groups.google.com/group/ipzip2009 (здесь есть ссылки на данные)
07.05.2009

Практические задания по теме «Выделение ключевых слов и фраз из текстов»

Данные:

Задания (по всем корпусам)

  1. Частотные словари (словарь, график, аппроксимация степенной функцией)
  2. Выделение ключевых слов
  3. Выделение фраз
  4. (* только литературный корпус) «Цветовой спектр писателей»

Практическое задание по теме «Автоматическое реферирование»

Данные:

Задание: Построить систему автоматического реферирования (извлечения значимых предложений).

Варианты решения:
- на основе машинного обучения. Обучение: gzt_polit (570 статей), оценка: gzt_bus (294 статьи) из-за ошибок в данных предлагается использовать меньшую коллекцию: политика (230 - обучение), бизнес (89 - тест), ссылка на коллекцию - в рассылке;
- на основе ручного подбора формулы.

NB: Длина реферата в предложениях – параметр метода. Для тестирования извлекаем столько предложений, сколько уже выделено в «идеальном реферате».

Дополнительное тестирование – на статьях «Компьютерры» №537, 538, 2004 год (~50 статей): смотрим глазами, сравниваем.

Формат «Газета.Ру»
+ предложение в реферате
– не в реферате

+||Глава Приднестровья Владимир Смирнов решился обратиться к Владимиру Путину.||
+||Он написал в Кремль письмо, в котором просит усилить военный контингент в связи с «блокадой республики».||
+||Кремль ничего не ответил и ответить не сможет, так как в этом случае Путин вмешается в конфликт вокруг не признанной международным правом территории.||
-||Ситуация вокруг Приднестровья, которая начала обостряться еще в начале месяца, и по сей день остается неразрешенной.||
-||3 марта, напомним, Украина ввела новые таможенные правила, по которым все грузы из Приднестровья должны оформляться через таможню Молдавии.||
-||Это автоматически привело к закрытию границы Украины и непризнанной республики.||

Статьи Компьютерры для реферирования есть в аналогичном формате (без HTML разметки, по одному предложению в строке), см. ссылку в рассылке. NB: и в Газете.Ру, и в Компьютерре могут попадаться ошибки разбиения на предложения.

Формат вывода (цитирую Лешу Бродского, см. письмо на рассылке):
...информация о каждом реферате печатается на одной строке, сначала надо указать имя файла с исходным текстом документа, а далее - номера предложений, попавшие в реферат и упорядоченные по возрастанию, через пробел. Пример:

oa_190925.txt 1 2 3 5 11
oa_190983.txt 3 4 8 9
Число строк в файле должно равняться числу документов в тестовой коллекции, т.е. их должно быть 294 89.

NB: Нулевое предложение - это заголовок, т.е. в реферате могут быть предложения с номерами 1 или больше.

Оценка: для "Газеты.Ру" - сравнение с квазирефератом (метрики близости рефератов - см. рассылку), для Компьютерры - неформальная оценка/анализ результатов.

Практические задания по теме «Обработка поисковых запросов»

Данные:

Задания (надо выполнить любые два из трех)

  1. Сегментация запросов: разделить многословный запрос на "независимые части" ("расстановка кавычек в запросе"). На входе - запрос, на выходе запрос, разделенный на сегменты (или запрос без изменений, если сегменты не выделены). Маркер границы сегментов: [пробел|пробел]. NB: Это не задача расклейки слов, маркер можно ставить только вместо пробела оригинального запроса. Оценка: сравнение с 1000 запросами, сегментированными вручную.
    Примечание: при ручной сегментации тестовых запросов я пытался выделить фрагменты, разбиение которых на отдельные токены выглядит некорректным (т.е. подход "снизу вверх"). Предлоги и союзы я относил к правому контексту:
    Николай Басков | и его новые песни
    Долорес Кеннон | Между жизнью и смертью
    Символизм | в книгах | о Гарри Поттере
    Часто отдельным сегментом становятся слова-маркеры:
    курсовая | учет расчетов по краткосрочным кредитам и займам
    Густав Крупп | фото
    скачать | программу для печати фотографий
    ЕЯ-запросы, смысл которых остался для меня туманным, я оставил "как есть":
    Факторы отбора проблем для программной разработки в туризме
    принцип измерения магнитных меток для измерения глубины
    действия к принятию правильного решения по завоеванию мужчины
    То же - с "цитатными запросами":
    Получение кредита либо льготных условий кредитования путем представления банку или иному кредитору заведомо ложных сведений
    часть прибыли распределяется между членами потребительского общества
    Есть и сильно сегментированные запросы:
    отопление | водоснабжение | канализация | московская область
    ответственность | продажа | авто | налоги
  2. Тематическая классификация запросов: отнести запрос к максимум трем категориям из набора "Описания сайтов". На входе запрос, на выходе - запрос и максимум три номера категорий, упорядоченные по уменьшению уверенности (разделитель - табуляция). Приимер:
    токарный станок	77	72	289
    Оценка: выбираем одну категорию и меряем полноту/точность на основе всех полученных результатов.
    Для задачи тематической классификации можно использовать интерфейсы к машинам поиска: Яндекс.XML и/или Google Search API, а также дополнительные данные, например dmoz.org.
  3. Кластеризация запросов (выделение близких по смыслу запросов). Приписать максимум 10 близких запросов из набора данных "Логи поисковой системы" каждому запросу из тестовой тысячи. Формат вывода: оригинальный запрос и близкие запросы (сначала - самый близкий и т.д.). Пример вывода:
    токарный станок --> фрезерный станок, токарь, рыбалка
    Оценка: выбираем 50-100 запросов из 1000 и измеряем полноту/точность. NB: оценивается только близость первоначальному запросу, т.е. если на запрос [молоко коровье] вернуть список [спиннинг], [блесна], [мотыль], то точность и полнота равны 0 (хотя выданные запросы близки между собой).

Практические задания по теме «Стилистический анализ документов»

Данные:

Задания

  1. Постройте дендрограмму кластеризации писателей в пространстве стилистических признаков или отобразите близость писателей в пространстве стилистических признаков на двумерной карте.
  2. Постройте классификаторы "литература", "новости", "научно-популярная статья" на основе трех коллекций. Примените классификаторы к выдаче машины поиска (10-20 запросов, 10 результатов на запрос). Оцените результаты классификации.