Матриця невідповідностей
Перед зануренням до вирішення задач класифікації (і не лише текстів) варто засвоїти поняття матриці невідповідностей (confusion matrix) і пов’язану із цим термінологією.

Цей матеріал підготовлений на базі статей:
- Простий посібник із термінології матриці невідповідностей авторства Kevin Markham з Data School.
- Матриця невідповідностей — Вікіпедія
Матриця невідповідностей — це таблиця, що часто використовується для опису ефективності моделі класифікації (або “класифікатора”) для набору тестових даних, для яких відомі справжні значення. Сама матриця невідповідностей відносно проста для розуміння, але пов’язана з нею термінологія може заплутати кого завгодно.
Тому почнемо з прикладу матриці невідповідностей для бінарного класифікатора (хоча цей приклад можна легко розширити на випадок більш ніж двох класів):

Чого ми можемо навчитися із цієї матриці?:
- Є два можливих прогнозованих класи: ТАК і НІ. Якби ми, наприклад, займались прогнозуванням наявності певного захворювання, то ТАК означало б, що пацієнти мають це захворювання, а НІ означало б, що вони не мають цього захворювання.
- Класифікатор зробив загалом 165 прогнозів (тобто 165 пацієнтів тестувалися на наявність цього захворювання).
- Із цих 165 випадків класифікатор передбачив ТАК 110 разів і НІ 55 разів (це суми по колонках таблиці).
- Хоча насправді 105 пацієнтів у вибірці мають захворювання, а 60 пацієнтів — ні (це суми по рядках таблиці).
Тепер визначимо основні терміни, яким відповідають цілі числа (це кількість випадків, про похідні показники буде трохи згодом):

Також додамо ще два очевидних терміни:
- позитивний стан (П або P): число справжніх позитивних випадків у даних;
- негативний стан (Н або N): число справжніх негативних випадків у даних.
Тепер додамо ці терміни включно з підсумками рядків і стовпців до матриці невідповідностей:

Показники ефективності класифікатора
Тепер можна перейти до деяких розповсюджених показників ефективності класифікатора:

Оригінал статті розташований на сайті protw.github.io/airscape, а також у репозитарії github.com/protw/airscape.