Stinopys

Search and research results are often lost. Although, no less often we have to return to them later. Graffiti (stinopys — in Ukrainian) is one of forms of abbreviated memorization and thus transformation of knowledge into valuable signposts.

Follow publication

Матриця невідповідностей

Перед зануренням до вирішення задач класифікації (і не лише текстів) варто засвоїти поняття матриці невідповідностей (confusion matrix) і пов’язану із цим термінологією.

Вікіпедія

Цей матеріал підготовлений на базі статей:

  1. Простий посібник із термінології матриці невідповідностей авторства Kevin Markham з Data School.
  2. Матриця невідповідностей — Вікіпедія

Матриця невідповідностей — це таблиця, що часто використовується для опису ефективності моделі класифікації (або “класифікатора”) для набору тестових даних, для яких відомі справжні значення. Сама матриця невідповідностей відносно проста для розуміння, але пов’язана з нею термінологія може заплутати кого завгодно.

Тому почнемо з прикладу матриці невідповідностей для бінарного класифікатора (хоча цей приклад можна легко розширити на випадок більш ніж двох класів):

Чого ми можемо навчитися із цієї матриці?:

  • Є два можливих прогнозованих класи: ТАК і НІ. Якби ми, наприклад, займались прогнозуванням наявності певного захворювання, то ТАК означало б, що пацієнти мають це захворювання, а НІ означало б, що вони не мають цього захворювання.
  • Класифікатор зробив загалом 165 прогнозів (тобто 165 пацієнтів тестувалися на наявність цього захворювання).
  • Із цих 165 випадків класифікатор передбачив ТАК 110 разів і НІ 55 разів (це суми по колонках таблиці).
  • Хоча насправді 105 пацієнтів у вибірці мають захворювання, а 60 пацієнтів — ні (це суми по рядках таблиці).

Тепер визначимо основні терміни, яким відповідають цілі числа (це кількість випадків, про похідні показники буде трохи згодом):

Також додамо ще два очевидних терміни:

  • позитивний стан (П або P): число справжніх позитивних випадків у даних;
  • негативний стан (Н або N): число справжніх негативних випадків у даних.

Тепер додамо ці терміни включно з підсумками рядків і стовпців до матриці невідповідностей:

Показники ефективності класифікатора

Тепер можна перейти до деяких розповсюджених показників ефективності класифікатора:

Оригінал статті розташований на сайті protw.github.io/airscape, а також у репозитарії github.com/protw/airscape.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Stinopys
Stinopys

Published in Stinopys

Search and research results are often lost. Although, no less often we have to return to them later. Graffiti (stinopys — in Ukrainian) is one of forms of abbreviated memorization and thus transformation of knowledge into valuable signposts.

Olegh Bondarenko
Olegh Bondarenko

Written by Olegh Bondarenko

Researcher, DSc, expert in Radiation Protection, Ecology, Air Quality Monitoring, Project Management, Data Science and other — orcid.org/0000-0001-8214-4654

No responses yet

Write a response