TREC Достоинства и недостатки

Лекция 1

Выводы:

· Каждогодний мировой объем производимой инфы возрастает экспоненциально.

· Толика инфы на цифровых носителях с каждым годом возрастает по сопоставлению с аналоговыми носителями.

· Суммарное годичное потребление инфы юзерами остается неизменной величиной.

· Неувязка:

· Раз в год возрастает экспоненциальный разрыв меж объемом производимой инфы и её потреблением конечными юзерами

Подходы:

· Автоматизация средств поиска подходящей конечному TREC Достоинства и недостатки юзеру инфы.

· Разработка средств адресной доставки потенциально нужной инфы конечным юзерам.

Актуальный цикл информационного ресурса:

· Становление ресурса

· Каталогизация

· Автоматическое индексирование

· Канонизация поисковых сервисов

· Угасание ресурса

Применение информационного поиска в библиотеках:

o 1-ый шаг

§ Автоматизация обычных технологий (карточных каталогов)

§ Поиск по создателю и наименованию

o 2-ой шаг:

§ Направленный на определенную тематику поиск, ключевики

o В текущее TREC Достоинства и недостатки время:

§ Развитый графический интерфейс

§ Электрические формы

§ Гипертекст

§ Открытая архитектура

Лекция 2

Систематизация – определяет соотношение меж качествами и классами.

· Монотетическая

o Класс определяется совокупой параметров, которые являются необходимыми и достаточными для членства объекта в классе

· Политетическая

o Класс определяется обилием параметров таких, что для членства в классе объект обязан иметь некое число (обычно огромное) этих параметров TREC Достоинства и недостатки, при всем этом ни один из членов класса не обладает всеми этими качествами.

Определение информационного поиска:

· Информационный поиск связан с представлением, хранением и организацией слабо структурированных данных.

· Простой единицей информационного поиска является документ. При всем этом содержимое документа, обычно, рассматривается как текстовое (в виде совокупы слов).

Структура процесса информационного поиска.

Задачка TREC Достоинства и недостатки направленного на определенную тематику поиска

Всераспространенной является задачка направленного на определенную тематику поиска:

o Сначала поиска юзер не знает верно свою информационную потребность, а имеет о ней только общее представление, т.е. тему. Он может сконструировать только запрос самого общего нрава.

o В процессе поиска юзер уточняет свою информационную потребность и TREC Достоинства и недостатки отбирает нужные ему документы. Побочным результатом является уяснение им самим собственной информационной потребности.

Особенности Web, затрудняющие традиционный информационный поиск:

· Распределенность данных

· Высочайший процент изменчивых данных

· Большой объем данных

· Неструктурированность данных

· Избыточность данных

· Качество данных

· Разнородность данных

· Дополнительные свойства документов:

o HTML-тэги

o гиперссылки

· Неквалифицированные юзеры, предпочитающие недлинные запросы

· Поисковый мусор

Лекция 3

Главные препядствия

· Как найти информационную потребность юзера из TREC Достоинства и недостатки его запроса, представляющего из себя текст на естественном на языке.

· Как сопоставлять запросы юзеров с документами из коллекции. Какие из документов выбирать.

· Как собирать (обновлять), представлять и хранить документы в коллекции.

· Действенная реализация информационно-поисковой системы и аспекты её оценки.

· Организация взаимодействия юзера с системой (интерфейс).

Релевантность vis Пертинентность

· Релевантность - степень соответствия TREC Достоинства и недостатки содержания документа, отысканного в итоге информационного поиска, содержанию информационного запроса.

· Пертинентность - степень соответствия содержания документа, отысканного в итоге информационного поиска, информационной потребности юзера, сформулированной в виде информационного запроса.

· Сложное психологическое явление информационной потребности не всегда удается точно, совершенно точно и исчерпывающе сконструировать в виде информационного запроса.

Виды релевантности:

· Формальная релевантность TREC Достоинства и недостатки – наличие в документе контекстных ситуаций, затребованных пользовательским запросом

· Содержательная релевантность – соответствие содержания документа информационной потребности юзера

· Индивидуально-прагматическая релевантность либо пертинентность (англ. pertinent)

Эффективность:

· Технико-экономическая эффективность:

o Быстродействие

o Полнота охвата документов

o Себестоимость поиска

· Многофункциональная эффективность – способность системы выдавать юзеру максимально большее число релевантных документов и как можно наименьшее число TREC Достоинства и недостатки нерелевантных.

Себестоимость запроса:

· Рассчитывается как отношение общего объема издержек на создание и поддержку работоспособности ИПС в единицу времени (к примеру, за год) к количеству запросов, обрабатываемых ИПС за то же время.

Многофункциональная эффективность:

· Более необходимыми формальными показателями многофункциональной эффективности являются полнота, точность и избирательность.

Полнота vis Точность

В реальных системах TREC Достоинства и недостатки нереально достигнуть сразу высочайшей полноты и точности. Потому при настройке и оценке употребляются комбинированные метрики.

Уровни отсечения:

· Фиксируется необходимое количество релевантных документов: 1-ые 5, 1-ые 10, 20, 50, 100, 500.

· Измеряется точность на каждом из этих уровней.

· Рассчитывается (взвешенное) среднее по всем приобретенным результатам.

Е-мера


P = точность

R = полнота

b = степень относительной значимости P либо R

TREC

· Text REtrieval TREC Достоинства и недостатки Conference/Competition

o проводится организацией National Institute of Standards & Technology

o 1-ая конференция была проведена в 1992 г.

· Размер коллекции документов: 5 Г (5 CRDOMов), >1.5 миллионов документов

o Newswire & полнотекстовые анонсы (AP, WSJ, Ziff, FT, San Jose Mercury, LA Times)

o Правительственные документы (федеральный регистр, записи конгресса)

o FBIS (Foreign Broadcast Information Service)

o Патенты США TREC Достоинства и недостатки.

TREC Главные принципы

· Запросы + оценки релевантности

o Запросы разрабатываются и оцениваются “Информационными спецами”

o Оценки релевантности производятся только для документов в выборке, но не для всей коллекции

· Состязание

o Участвуют разные исследовательские и коммерческие группы (TREC 6 было 51, TREC 7 было 56, TREC 8 было 66)

o Результаты оцениваются на полноту и точность доходя до уровня полноты в TREC Достоинства и недостатки 1000 документов.

Дорожки TREC

· Это задачки, которые фокусируются на личных дилеммах информационного поиска.

TREC. Процедура.

· Создание темы в NIST

· Темы рассылаются участникам, которые возвращают ранжированные списки наилучших 1000 документов по каждой теме

· NIST сформировывает пулы уникальных документов из всех присланных списков, которые оцениваются профессионалами на релевантность

· Системы оцениваются по результатам оценок профессионалов

TREC Плюсы и недочеты

· Плюсы TREC Достоинства и недостатки:

o Позволяет проверить работу исследовательской системы на большой коллекции документов

o Предоставляет принятый механизм для сопоставления разных систем меж собой

· Недочеты:

o Акцент делается на высочайшей степени полноты, что нереально исходя из убеждений того, чего желают юзеры

o Нереально длинноватые запросы

o Сложность сопоставления систем, так как они могут различаться по большенному TREC Достоинства и недостатки количеству характеристик

o Фокусируется на пакетном ранжировании ежели на содействии.

ТRЕС Изменение акцентов

Повышенное внимание уделяется таким спец “дорожкам”, как

· Интерактивность

· Обработка естественного языка (NLP)

· Многоязыковость (Китайский, Испанский)

· Фильтрация

· Высочайшая точность

· Высочайшая производительноть

NTCIR, CLEF

Имеются подобные TREC организации:

· NTCIR(Япония) =NII Test Collection for IR Systems

· CLEF (Европа) = Cross Language Evaluation Forum.

РОМИП

· Русский семинар по Оценке Способов Информационного Поиска

· Это TREC Достоинства и недостатки инициатива по созданию плацдарма для проведения независящей оценки способов информационного поиска, нацеленных на работу с русской информацией.

Проект имеет некоммерческий нрав и осуществляется силами общества русских исследователей и разработчиков, занимающихся информационным поиском. Издержки на подготовку и проведение тестирования возмещаются за счёт взносов участников. Результаты тестирования созданы для использования исключительно в TREC Достоинства и недостатки исследовательских целях и не могут быть применены в рекламных либо коммерческих целях.

Применяемые методики оценки являются открытыми, они сформированы с учётом представления участников. Результаты работы семинара на публике доступны как в виде трудов семинара, так и в виде построенных тестовых корпусов. Доступ к корпусам можно получить после воззвания в Оргкомитет TREC Достоинства и недостатки РОМИП и подписания нужных соглашений с правообладателем.

Лекция 4

1999 – Гугл (Sergey Brin, Larry Page – Stanford Univ.)

· Метод ранжирования PageRank

· Оптимизация архитектуры системы

· Масштабирование и распараллеливание (Linux-кластеры)

· Восстановление текста документа без воззвания к его оригиналу в Веб

Yandex:

· 1990 – компания Аркадия (Аркадий Борковский и Аркадий Волож):

o Начало разработки поискового программного обеспечения. За два TREC Достоинства и недостатки года работ сделаны Интернациональная систематизация Изобретений и Классификатор Продуктов и Услуг

· 1993 – Аркадия становится подразделением CompTek. Сотрудничество с лабораторией Ю.Д.Апресяна (ИППИ РАН). Создание словаря для поиска с учетом морфологии российского языка (300 КБ).

· Начало 1996 г. Разработан метод построения гипотез (снятие привязки к словарю) для незнакомых слов.

· Лето 1996. Управление CompTek TREC Достоинства и недостатки и разработчики сделали вывод о самоценности развития самой технологии. Возникновение “Яndex” в Вебе.

· “Яndex” = “языковой индекс”, “Yet Another Index”. “I” = “Я”.

Лекция 5


trening-klyuchi-k-vashej-effektivnosti.html
trening-motivacionnogo-razvitiya-mezhlichnostnih-otnoshenij-u-podrostkov-12-15-let.html
trening-po-kratkosrochnoj-pozitivnoj-terapii.html