Страница курса: http://www.kansas.ru/ir2009/
Группа: http://groups.google.com/group/ipzip2009 (здесь есть ссылки на данные)
07.05.2009
Данные:
Задания (по всем корпусам)
Данные:
Задание: Построить систему автоматического реферирования (извлечения значимых предложений).
Варианты решения:
- на основе машинного обучения. Обучение: gzt_polit (570 статей), оценка: gzt_bus (294 статьи) из-за ошибок в данных предлагается использовать меньшую коллекцию: политика (230 - обучение), бизнес (89 - тест), ссылка на коллекцию - в рассылке;
- на основе ручного подбора формулы.
NB: Длина реферата в предложениях – параметр метода. Для тестирования извлекаем столько предложений, сколько уже выделено в «идеальном реферате».
Дополнительное тестирование – на статьях «Компьютерры» №537, 538, 2004 год (~50 статей): смотрим глазами, сравниваем.
Формат «Газета.Ру»
+ предложение в реферате
– не в реферате
+||Глава Приднестровья Владимир Смирнов решился обратиться к Владимиру Путину.|| +||Он написал в Кремль письмо, в котором просит усилить военный контингент в связи с «блокадой республики».|| +||Кремль ничего не ответил и ответить не сможет, так как в этом случае Путин вмешается в конфликт вокруг не признанной международным правом территории.|| -||Ситуация вокруг Приднестровья, которая начала обостряться еще в начале месяца, и по сей день остается неразрешенной.|| -||3 марта, напомним, Украина ввела новые таможенные правила, по которым все грузы из Приднестровья должны оформляться через таможню Молдавии.|| -||Это автоматически привело к закрытию границы Украины и непризнанной республики.||
Статьи Компьютерры для реферирования есть в аналогичном формате (без HTML разметки, по одному предложению в строке), см. ссылку в рассылке. NB: и в Газете.Ру, и в Компьютерре могут попадаться ошибки разбиения на предложения.
Формат вывода (цитирую Лешу Бродского, см. письмо на рассылке):
...информация о каждом реферате печатается на одной строке,
сначала надо указать имя файла с исходным текстом документа, а далее -
номера предложений, попавшие в реферат и упорядоченные по возрастанию,
через пробел. Пример:
oa_190925.txt 1 2 3 5 11 oa_190983.txt 3 4 8 9Число строк в файле должно равняться числу документов в тестовой коллекции, т.е. их должно быть
NB: Нулевое предложение - это заголовок, т.е. в реферате могут быть предложения с номерами 1 или больше.
Оценка: для "Газеты.Ру" - сравнение с квазирефератом (метрики близости рефератов - см. рассылку), для Компьютерры - неформальная оценка/анализ результатов.
Данные:
Задания (надо выполнить любые два из трех)
Николай Басков | и его новые песни Долорес Кеннон | Между жизнью и смертью Символизм | в книгах | о Гарри ПоттереЧасто отдельным сегментом становятся слова-маркеры:
курсовая | учет расчетов по краткосрочным кредитам и займам Густав Крупп | фото скачать | программу для печати фотографийЕЯ-запросы, смысл которых остался для меня туманным, я оставил "как есть":
Факторы отбора проблем для программной разработки в туризме принцип измерения магнитных меток для измерения глубины действия к принятию правильного решения по завоеванию мужчиныТо же - с "цитатными запросами":
Получение кредита либо льготных условий кредитования путем представления банку или иному кредитору заведомо ложных сведений часть прибыли распределяется между членами потребительского обществаЕсть и сильно сегментированные запросы:
отопление | водоснабжение | канализация | московская область ответственность | продажа | авто | налоги
токарный станок 77 72 289Оценка: выбираем одну категорию и меряем полноту/точность на основе всех полученных результатов.
токарный станок --> фрезерный станок, токарь, рыбалкаОценка: выбираем 50-100 запросов из 1000 и измеряем полноту/точность. NB: оценивается только близость первоначальному запросу, т.е. если на запрос [молоко коровье] вернуть список [спиннинг], [блесна], [мотыль], то точность и полнота равны 0 (хотя выданные запросы близки между собой).
Данные:
Задания