Essas são minhas notas de estudos, elas podem ser atualizadas com o tempo ou não, além de não necessariamente serem organizadas no formato de textos.
Tabela de Conteúdo
Classificadores
Um classificador binário distingue entre duas possíveis classes enquanto um classificador multiclasse distingue entre $n>2$ classes. Alguns algoritmos são por construção classificadores binários, como Logist Regression e SVM. Porém, é possível utilizar estratégias para que esses algoritmos sejam aplicados a classificações com $n>2$ classes.
Usar como loss a Softmax (cross entropy) no algoritmo de Logistic Regression faz com que ele consiga identificar múltiplas classes.
one-versus-the-rest (OvR)
A estratégia OvR, ou como também é conhecida one-versus-all, usa um modelo de classificador binário para cada uma das $n$ classes. Para cada classificar binário, consideramos uma classe $i$ contra todas as outras classes, i.e., separamos as $n$ classes em duas, uma contendo a classe $i$ e a outra contém o resto das classes. A classificação é feita tomando o maior valor entre os resultados obtidos por cada um dos $n$ modelos, similar com o voto duro.
one-versus-one (OvO)
A estrátegia OvO treina um classificador binário para cada par das $n$ classes do dataset. Note que isso vai exigir um número muito grande de classificadores, o número de combinações possíveis de $n$ classes tomadas de $2$ em $2$ é dada por,
\[C_{n,2}=\frac{n!}{2!(n-2)!}.\]A vantagem dessa estratégia é o uso de um dataset pequeno para cada classificador, já que só consideramos duas classes por vez.
O algoritmo de [SVM][svm] não escala bem como tamanho do dataset. Então, utilizar a estratégia do OvO neste algoritmo é mais eficiente. Para a grande maioria dos outros algoritmos, a estratégia OvR é preferível.
Referências
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow - Livro