Была поставлена задача обучения классификатора, который должен определять по входным данным (двум пердложениям) следующие классы:
- entailment (из параграфа 1 следует параграф 2)
- contradiction (параграф 1 противоречит параграфу 2)
- neutral (в параграфе 1 и параграфе 2 содержится схожая по смыслу информация)
Данные от Стэмфордского университета представлены в виде хорошо размеченного датасета в котором имеются обучающая/валиационная и тестовая выборки.
Корпус был приведен к нижнему регистру и нормализован с помощью библиотеки spaCy, также была отброшена находившаяся в датасете разметка для графовых сетей.
После предобработки:
Ноутбук с обучением.
Ноутбук обучения поледней модели.