Переможець премії Марра (нагорода за найкращу роботу), ICCV 2011
«Хто в веселці може провести лінію там, де закінчується фіолетовий відтінок і починається помаранчевий? Ми чітко бачимо різницю кольорів, але де саме один спочатку змішується з іншим? Так і з розумом і безумством».
-- Герман Мелвілл, Біллі Бадд
[ стаття ] [ дані ] [ код ] [ демо ] [ слайди ] [ бесіда (відео) ] [ плакат ] [ переклади ]
Анотація
Візуальні «атрибути», які можна назвати людиною, можуть принести користь різним завданням розпізнавання. Однак існуючі методи обмежують ці властивості категоріальними ярликами (наприклад, людина «посміхається» чи ні, сцена «суха» чи ні), і, таким чином, не в змозі охопити більш загальні семантичні відносини. Ми пропонуємо моделювати відносні атрибути. Враховуючи навчальні дані про те, як категорії об’єкта/сцени співвідносяться з різними атрибутами, ми вивчаємо функцію ранжирування для кожного атрибута. Вивчені функції ранжирування передбачають відносну силу кожної властивості в нових зображеннях. Потім ми будуємо генеративну модель на основі об’єднаного простору результатів ранжування атрибутів і пропонуємо нову форму нульового навчання, у якій керівник відповідаєкатегорію невидимих об’єктів до раніше бачених об’єктів за допомогою атрибутів (наприклад, «ведмеді пухнастіші за жирафів»). Далі ми показуємо, як запропоновані відносні атрибути забезпечують більш багаті текстові описи для нових зображень, які на практиці є більш точними для людської інтерпретації. Ми демонструємо підхід на наборах даних облич і природних сцен і показуємо його явні переваги перед традиційним двійковим прогнозуванням атрибутів для цих нових завдань.
Мотивація
Двійкові атрибути є обмежувальними та можуть бути неприродними. У наведених вище прикладах, хоча зображення у верхньому лівому та верхньому правому кутах можна охарактеризувати як природне та рукотворне відповідно, як би ви описали зображення у верхньому центрі? Єдиний значущий спосіб охарактеризувати це по відношенню до інших зображень: воно менш природне, ніж зображення ліворуч, але більше, ніж зображення праворуч.
Пропозиція
У цій роботі ми пропонуємо моделювати відносні атрибути. На відміну від передбачення наявності атрибута, відносний атрибут вказує на силу атрибута в зображенні по відношенню до інших зображень. Крім того, що відносні атрибути є більш природними, вони пропонують більш багатий спосіб спілкування, таким чином дозволяючи отримати доступ до більш детального людського спостереження (і, отже, потенційно вищу точність розпізнавання), а також можливість генерувати більш інформативні описи нових зображень.
Ми розробили підхід, який вивчає функцію ранжирування для кожного атрибута, враховуючи обмеження відносної схожості на парах прикладів (або, загалом, часткове впорядкування деяких прикладів). Вивчена функція ранжирування може оцінити дійсний ранг для зображень, що вказує на відносну силу присутності атрибута в них.
Ми представляємо нові форми нульового навчання та опису зображень, які використовують відносні передбачення атрибутів.
Підхід
Вивчення відносних атрибутів: кожен відносний атрибут вивчається за допомогою формулювання навчання ранжируванню з урахуванням порівняльного спостереження, як показано нижче:
Різниця між вивченням функції ранжирування з широкими полями (праворуч), яка забезпечує бажане впорядкування балів навчання (1-6), і бінарним класифікатором із широкими полями (ліворуч), який лише розділяє два класи (+ і -) і виконує необов’язково зберігати бажаний порядок пунктів, показано нижче:
Нове нульове навчання : Ми вивчаємо наступну установку
- Усього N категорій: S переглянутих категорій (доступні пов’язані зображення) + U невидимих категорій (для цих категорій немає доступних зображень)
- S побачених категорій описуються відносно одна одної за допомогою атрибутів (не всі пари категорій повинні бути пов’язані для всіх атрибутів)
- U невидимі категорії описуються відносно (підмножини) видимих категорій у термінах (підмножини) атрибутів.
Спочатку ми тренуємо набір відносних атрибутів, використовуючи нагляд за категоріями перегляду . Ці атрибути також можна попередньо навчити із зовнішніх даних. Потім ми будуємо генеративну модель (гауссівську) для кожної категорії видимості , використовуючи відповіді відносних атрибутів на зображення з категорій видимості . Потім ми виводимо параметри генеративних моделей невидимих категорій, використовуючи їхні відносні описи щодо видимих категорій. Візуалізація простого підходу, який ми використовуємо для цього, показана нижче:
Тестове зображення віднесено до категорії з максимальною ймовірністю.
Автоматичне створення відносних текстових описів зображень: Маючи зображення I, яке потрібно описати, ми оцінюємо всі вивчені функції ранжирування на I. Для кожного атрибута ми ідентифікуємо два еталонних зображення, що лежать по обидва боки від I, і не надто далеко від I або занадто близько до нього. Потім описується зображення I відносно цих двох контрольних зображень, як показано нижче:
Як було показано вище, окрім опису зображення відносно інших зображень, наш підхід також може описувати зображення відносно інших категорій, що призводить до суто текстового опису. Очевидно, що відносні описи є більш точними та інформативними, ніж звичайний двійковий опис.
Експерименти та результати
Ми проводимо експерименти на двох наборах даних:
(1)Розпізнавання зовнішньої сцени (OSR), що містить 2688 зображень із 8 категорій: узбережжя C, ліс F, шосе H, місто I, гора M, відкрита місцевість O, вулиця S і високі будівлі T. Ми використовуємо основні функції для представлення зображення.
(2) Підмножина бази даних облич громадських діячів (PubFig), що містить 772 зображення з 8 категорій: Алекс Родрігез А, Клайв Оуен С, Г’ю Лорі Х, Джаред Лето Дж, Майлі Сайрус М, Скарлетт Йоханссон С, Вігго Мортенсен В і Зак Ефрон З. Для представлення зображень ми використовуємо об’єднану суть і колір.
Нижче наведено список атрибутів, які використовуються для кожного набору даних, а також анотації двійкових і відносних атрибутів:
Безпосереднє навчання:
Ми порівнюємо наш запропонований підхід із двома базовими лініями. Перший – це відносні атрибути на основі балів (SRA). Цей базовий рівень такий самий, як і наш підхід, за винятком того, що він використовує оцінки двійкового класифікатора (бінарні атрибути) замість оцінок функції ранжирування. Ця базова лінія допомагає оцінити потребу у функції ранжирування для найкращого моделювання відносних атрибутів. Наша друга базова лінія — це модель прямого прогнозування атрибутів (DAP), представлена Лампертом та ін. у CVPR 2009. Ця базова лінія допомагає оцінити переваги відносного трактування атрибутів на відміну від категоричного. Ми оцінюємо ці підходи для різної кількості невидимих категорій, різної кількості даних, що використовуються для навчання атрибутів, різної кількості атрибутів, що використовуються для опису невидимих категорій, і різного рівня «нерозбірливості» в описі невидимих категорій. Деталі експериментальної установки можна знайти в нашій статті. Результати наведені нижче:
Автоматично створені описи зображень:
Щоб оцінити якість наших відносних описів зображень до двійкових аналогів, ми провели дослідження на людях. Ми створили опис зображення, використовуючи наш підхід, а також базові бінарні атрибути. Ми представили суб’єктам цей опис разом із трьома зображеннями. Одне з трьох зображень було описуваним. Завдання піддослідних полягало в тому, щоб ранжувати три зображення, виходячи з того, яке, на їхню думку, є найбільш імовірним для описуваного. Чим точніший опис, тим більше шансів суб’єктів визначити правильне зображення. Нижче наведено ілюстрацію завдання, яке пропонується випробуваним:
Результати дослідження наведені нижче. Ми бачимо, що суб’єкти можуть точніше ідентифікувати правильне зображення за допомогою запропонованих нами відносних атрибутів порівняно з бінарними атрибутами.
Нижче наведено приклади бінарних описів зображень, а також описів щодо категорій:
Зображення | Бінарні описи | Відносні описи |
не природна не відкрита перспектива | більш природний, ніж високий будинок, менш природний, ніж ліс, більш відкритий, ніж високий будинок, менш відкритий, ніж узбережжя, більш перспективний, ніж високий будинок | |
не природна не відкрита перспектива | більш природний, ніж усередині міста, менш природний, ніж шосе , більш відкритий, ніж вулиця, менш відкритий, ніж узбережжя , більш перспективний, ніж шосе, менш перспективний, ніж всередині міста | |
природна відкрита перспектива | більш природний, ніж високий будинок, менш природний, ніж гора, більш відкритий, ніж гора, менш перспективний, ніж відкрита країна | |
Білий не усміхнений видимий лоб | більш Білий, ніж АлексРодрігез, Більш Усміхнений, ніж ДжаредЛето , Менш Усміхнений, ніж ЗакЕфрон , Більш Видимий Лоб, ніж ДжаредЛето , Менш Видимий Лоб, ніж МайліСайрус | |
Білий не посміхається, не видно лоба | більш білий, ніж АлексРодрігез , менш білий, ніж МайліСайрус , менш усміхнений, ніж Х'юЛорі , більш видимий лоб, ніж ЗакЕфрон , менш видимий лоб, ніж МайліСайрус | |
не Молоді ГустіБрови КруглеОбличчя | більш молодий, ніж КлайвОуен , менш молодий, ніж СкарлеттЙоханссон , більш густі брови, ніж Закефрон , менш густі брови, ніж АлексРодрігез , більше кругле обличчя, ніж КлайвОвен , менш кругле обличчя, ніж ЗакЕфрон |
Дані
Ми надаємо вивчені відносні атрибути та їхні прогнози для двох наборів даних, які використовуються в нашій статті: розпізнавання зовнішньої сцени (OSR) і підмножини бази даних облич громадських діячів (PubFig).
Набір даних атрибутів відносного обличчя . Він містить анотації для 29 відносних атрибутів у 60 категоріях із бази даних облич громадських діячів (PubFig).
Код
Ми модифікували реалізацію RankSVM Олів’є Шапелля, щоб навчити відносні атрибути з обмеженнями подібності. Наш змінений код можна знайти тут .
Якщо ви використовуєте наш код, процитуйте наступний документ:
Д. Паріх і К. Грауман
Відносні атрибути
Міжнародна конференція з комп'ютерного зору (ICCV), 2011.
Демо
Демонстрації різних застосувань відносних атрибутів можна знайти тут . Опис цих програм можна знайти в статтях тут .
Публікації
Міжнародна конференція з комп’ютерного зору (ICCV), 2011. (Усна)
Переможець премії Марра (нагорода за найкращу роботу).
[ слайди ] [ бесіда (відео) ] [ плакат ] [ демонстрація відносного опису ]
Нижче наведено інші наші документи, які використовують відносні атрибути:
А. Бісвас і Д. Паріх
Одночасне активне вивчення класифікаторів і атрибутів через відносний зворотний зв’язок
Конференція IEEE з комп’ютерного зору та розпізнавання образів (CVPR), 2013
[ сторінка проекту та дані ] [постер] [ демонстрація ]
А. Паркаш і Д. Паріх
Атрибути для зворотного зв'язку класифікатора
Європейська конференція з комп’ютерного зору (ECCV), 2012 (усна)
[ слайди ] [ обговорення ( відео ) ] [ сторінка проекту та дані ] [ демо ]
А. Ковашка , Д . Парих і К. Грауман
WhittleSearch: Пошук зображень із зворотним зв’язком відносного атрибута
Конференція IEEE з комп’ютерного зору та розпізнавання образів (CVPR), 2012
[ сторінка проекту ] [ постер ] [ демонстрація ]
D . Парих , А . Ковашка , А. Паркаші К. Грауман
Відносні атрибути для вдосконаленого зв’язку між людиною та машиною (запрошена стаття)
Конференція AAAI зі штучного інтелекту (AAAI), 2012 (усна)