Матриця невідповідностей

Olegh Bondarenko
Stinopys
Published in
2 min readOct 31, 2021

--

Перед зануренням до вирішення задач класифікації (і не лише текстів) варто засвоїти поняття матриці невідповідностей (confusion matrix) і пов’язану із цим термінологією.

Вікіпедія

Цей матеріал підготовлений на базі статей:

  1. Простий посібник із термінології матриці невідповідностей авторства Kevin Markham з Data School.
  2. Матриця невідповідностей — Вікіпедія

Матриця невідповідностей — це таблиця, що часто використовується для опису ефективності моделі класифікації (або “класифікатора”) для набору тестових даних, для яких відомі справжні значення. Сама матриця невідповідностей відносно проста для розуміння, але пов’язана з нею термінологія може заплутати кого завгодно.

Тому почнемо з прикладу матриці невідповідностей для бінарного класифікатора (хоча цей приклад можна легко розширити на випадок більш ніж двох класів):

Чого ми можемо навчитися із цієї матриці?:

  • Є два можливих прогнозованих класи: ТАК і НІ. Якби ми, наприклад, займались прогнозуванням наявності певного захворювання, то ТАК означало б, що пацієнти мають це захворювання, а НІ означало б, що вони не мають цього захворювання.
  • Класифікатор зробив загалом 165 прогнозів (тобто 165 пацієнтів тестувалися на наявність цього захворювання).
  • Із цих 165 випадків класифікатор передбачив ТАК 110 разів і НІ 55 разів (це суми по колонках таблиці).
  • Хоча насправді 105 пацієнтів у вибірці мають захворювання, а 60 пацієнтів — ні (це суми по рядках таблиці).

Тепер визначимо основні терміни, яким відповідають цілі числа (це кількість випадків, про похідні показники буде трохи згодом):

Також додамо ще два очевидних терміни:

  • позитивний стан (П або P): число справжніх позитивних випадків у даних;
  • негативний стан (Н або N): число справжніх негативних випадків у даних.

Тепер додамо ці терміни включно з підсумками рядків і стовпців до матриці невідповідностей:

Показники ефективності класифікатора

Тепер можна перейти до деяких розповсюджених показників ефективності класифікатора:

Оригінал статті розташований на сайті protw.github.io/airscape, а також у репозитарії github.com/protw/airscape.

--

--

Olegh Bondarenko
Stinopys

Researcher, DSc, expert in Radiation Protection, Ecology, Air Quality Monitoring, Project Management, Data Science and other — orcid.org/0000-0001-8214-4654