Комп’ютерне зір проти людського: чим відрізняються і коли одне краще іншого

72

Що собою являє комп’ютерний зір? це-напрямок у розвитку технологій, які можуть самостійно виявляти об’єкти навколишнього світу, а також визначати їх тип і класифікувати за категоріями. Щоб все це стало реальністю, створюються нейронні мережі, які навчають для конкретних цілей. Сценаріїв для використання комп’ютерного зору маса. Це, наприклад, і промислові роботи, які виконують завдання на виробництві. Воно також застосовується в відеоспостереженні, доповненої реальності і навіть сучасних смартфонах — в системах обчислювальної фотографії.

Як і людське, комп’ютерне зір, в першу чергу, призначене для ідентифікації об’єктів. Ось тільки на цьому схожість двох цих систем фактично закінчується. Щоб краще зрозуміти, як працюють обидві, потрібно розібратися у всьому різноманітті їх відмінностей — максимально простою мовою.

Будова кожного з людських очей

Людський зір — стандартна функція будь-якого з представників нашого біологічного виду. Щоб бачити, цьому не потрібно довго і наполегливо вчитися. Його робота заснована на взаємодії зі світлом. Спочатку він відштовхується від об’єкта і потрапляє в кожне з очей через рогівку. Далі вона направляє його на зіниці і райдужну оболонку, які спільно контролюють ширину і інтенсивність потоку. Після цього світло переміщається до сітківки, яка складається з конусів і стрижнів, які беруть участь у визначенні кольору і формуванні зображення. Цей довгий шлях – тільки початок.

Коли картинка отримана, її необхідно обробити. Для цього людина використовує окрему зону свого мозку, яка визначає колір, форму, рух, а також безліч додаткових деталей і навіть такі відносно абстрактні поняття, як краса. Мозок може порівнювати об’єкти і навіть переінакшувати отриману картинку, додумуючи певні деталі. Більш того, за рахунок того, що людина використовує відразу два очі, мозок працює з парою базових зображень, що, в тому числі, потрібно для розуміння перспективи і визначення віддаленості об’єктів, які аналізуються.

Комп’ютерний зір використовує схожі алгоритми для отримання картинки | але абсолютно інші для її обробки / exponenta

Комп’ютерний зір — нестандартна функція в машинах, яка реалізується за допомогою як простих для розуміння процесів, так і досить складних для непідготовлених умів. Спочатку, за аналогією з людським зором, комп’ютерному потрібно отримати зображення. Робиться це зазвичай за рахунок системи з камер та інших додаткових датчиків. Крізь об’єктив, який, в тому числі, містить діафрагму, контролюючу ширину світлового потоку, світло потрапляє на матрицю, яка містить величезну кількість світлочутливих елементів, що фіксують зображення. Дуже схоже на роботу очі, чи не так?

Так, технології вже навчилися певною мірою копіювати роботу людського ока, але весь зоровий процес в цілому складається не тільки з них. Картинка отримана, і далі її необхідно обробити. Для цього в разі комп’ютерного зору використовується штучний інтелект. Мова про нейронні мережі, які тренують під конкретні завдання. Після тривалого навчання вони можуть визначати побачене, проводити класифікацію об’єктів за конкретними типами. Виходить, що за все це спочатку відповідає людина. Більш того, однієї нейронної мережі для визначення всього і вся поки не існує.

система комп’ютерного зору в автопілоті авто, яка розпізнає об’єкти, розташовані на дорозі / medium

◉ пристрій

Людський зір-результат багатьох років еволюції, який відмінно працює. Немає сенсу придумувати щось нове, тому пристрій у комп’ютерного досить сильно схоже. Втім, не можна забувати, що для отримання та аналізу зображення організм використовує біологічні системи з сітківкою і клітинами кори головного мозку, а машина — чутливі елементи, а також численні транзистори. У фахівців, які займаються комп’ютерним зором, два завдання: наблизити якість машинного отримання картинки до людського, а також придумати систему її ефективного аналізу.

◉ кут огляду

Незважаючи на те, що людський зір здається куди більш складною і досконалою системою, ніж комп’ютерні аналоги, у останніх все ж є очевидні переваги. Це, наприклад, стосується відносного кута огляду. Добре відомо, що людина бачить не більше ніж на 220 градусів по горизонталі-те, що знаходиться прямо перед ним і трохи з боків. Системи, що використовують технології комп’ютерного зору, можуть відрізнятися, але ніхто не заважає їм використовувати розмах на всі 360 градусів. При цьому навіть пропадає необхідність визначення понять» спереду «і» ззаду”, які завжди є у людини.

комп’ютерне зір може бути засноване на камерах, в об’єктиви яких потрапляють всі 360 градусів простору по горизонталі / xiaomi

◉ якість сприйняття

Коли йдеться про поле зору, з’являється ще одна важлива відмінність, яка пов’язана з якістю сприйняття інформації у всьому вугіллі. У технологій комп’ютерного зору в даному плані немає зовсім ніяких значущих обмежень-машина бачить все в однаковій якості на заданому вугіллі незалежно від його ширини. Людина найкраще розрізняє колір об’єктів, які знаходиться в безпосередньому центрі поля зору. Втім, коли мова заходить про низьке освітлення, розібрати обриси об’єктів в даному випадку виходить краще саме на периферії. Більш того, тут же найкраще визначаються будь-які рухи.

◉ спеціалізація

Для отримання картинки в зоровій системі людини використовуються не один, а відразу два типи “датчиків” з конкретною спеціалізацією. Мова про стрижні і конуси, про які вже йшла мова вище по тексту. Перших приблизно в 20 разів більше, ніж других, — вони сконцентровані на периферії і забезпечують краще визначення об’єктів в темряві. Конуси, в свою чергу, призначені для визначення кольорів і збільшення дозволу картинки в світлий час доби. У комп’ютерного зору маса датчиків, які фіксують картинку, але конкретної спеціалізації у них немає.

У окремих датчиків на матриці умовної камери немає конкретної спеціалізації

◉ інтеграція

Дивно, що за роки тривалої еволюції людський зір має певні обмеження, в порівнянні зі штучним аналогом. Проте у комп’ютерного зору немає глибокої інтеграції з іншими системами всередині машини — судячи з усього, в цьому один з його головних мінусів. Людина не тільки бачить, але і чує, а також відчуває дотики і відчуває запахи. Виходить, якщо конкретно зорова система не справляється з визначенням об’єкта, мозок орієнтується на цілий ряд інших сигналів, щоб проаналізувати всю цю інформацію скопом. Нічого подібного в машинах сьогодні просто немає.

◉ архітектура

Архітектура системи зору визначає, яким саме чином відбувається розпізнавання об’єктів. В даному випадку скопіювати людську систему мозку на поточному рівні розвитку технологій практично неможливо. Аналізуючи активність його кори, вченим вдалося створити нейронні мережі, які примітивно імітують його діяльність. Спочатку вони вчилися визначати прості об’єкти на зразок геометричних фігур, а потім і більш складні — на зразок осіб і автомобілів. Втім, мозок не потрібно вчити розуміти форми конкретних об’єктів. Та й як саме він це робить, умам усього світу ще тільки належить зрозуміти.

Схема роботи нейромережі — яка здається дуже заплутаною | – процеси в мозку куди складніше / study

◉ призначення

Актуальні системи комп’ютерного зору в масі призначені для вирішення однієї конкретної задачі. Вони можуть класифікувати об’єкти за типом, виділяти їх із загальної картинки, сегментувати одне зображення на кілька окремих, генерувати візуал і так далі — випадки, коли одна і та ж нейронна мережа може закрити відразу кілька подібних питань, поодинокі. У людського зору все інакше. Воно може підлаштовувати свою чутливість під цілі, які перед ним ставить мозок. Більш того, один і той же організм може справлятися з ідентифікацією тисяч об’єктів в один і той же момент.

◉ можливість обману

Щоб обдурити комп’ютерне зір, потрібно взаємодіяти з системою, яка дає картинку, — з умовною камерою. Якщо вона видала некоректну картинку, нейронна мережа не зможе її правильно обробити. Коли мова заходить про людське, то потрібно працювати з мозком, а не очима. Так як він порівнює інформацію з різних джерел, а також намагається доосмислити певні нюанси, з’являються моменти, коли він навіть невірно розуміє колірОб’єктів, що знаходяться поруч. Власне, тому є маса класичних обманів, які називаються ілюзіями. Машини до них нечутливі.