CBT Task filtering instructions (Masterarbeit)
(Context: 240202-1312 Human baselines creation for Masterarbeit / 231024-1704 Master thesis task CBT / 240202-1806 CBT Story proofreading for Masterarbeit)
Ціль: відсортувати добрі і погані тестові завдання по казкам. Погані казки - ті, де проблеми з варіантами відповіді.
Контекст: автоматично створюю казки, а потім тестові завдання по цим казкам, щоб перевіряти наскільки добре ШІ може розуміти суть казок (and by extension - мови). Для цього треба перевірити, чи створені казки та тести по ним взагалі можливо вирішити (і це мають робити люди). Потрібно зібрати 1000 правильних тестових завдань.
Завдання: НЕ вибирати правильну відповідь (вона +/- відома), а вирішувати, чи завдання ОК чи ні.
Типове завдання:
Коротко суть
Інтерфейс
- Нажимаємо на Label All Tasks:
- Клавіші зручні:
- Ctrl+Enter “зберегти і далі”
- Ctrl-Space для “пропустити”
- Для варіантів в квадратних дужках їх клавішаG
Казки
В списку казок натискаємо на label all tasks і бачимо історію з двох частин:
- context: перші 60% казки. Часто можна не читати взагалі, відповідь буде зрозумілою по другій частині
- question: останні 40% казки, і якесь слово там буде замінено на “
_____
”.
Далі бачимо варіанти відповіді і проблеми.
Варіантів відповіді шість. Це різні слова які можуть бути у прочерку. Можливі три типи прочерків:
- головні герої (Коза, Черепаха, кравчиня)
- іменники (їжа, одежа)
- дієслова (пішла, вирішив)
Варіанти мають бути узгодженими з текстом. Узгоджено:
- синій плащ, черепаха сміялась Не узгоджено:
- весела кіт, орел полетіла
Проблеми
Переважна більшість завдань ОК, але не всі.
Якщо є питання, кидайте в чат скрін та номер завдання.
Воно в URI:
Проблеми в завданні можуть бути логічні і мовні.
Логічні проблеми
- відповідь знати неможливо
- текст до і після не дає достатньо інформації щоб вибрати правильний варіант
- ми тупо не знаємо до кого вони пішли додому, кота чи черепахи, і не можемо дізнатися. Але це різні істоти
- декілька відповідей правильні
-
Лев сказав Черепасі, що йому потрібен піджак. Черепаха взялася за роботу/шиття.
- Декілька варіантів підходять тому ж поняттю. Він почав шити+працювати, він Кіт+підозрюваний.
- Виключення:
- тварина/звір. Якщо в варіантах є тварини і слово тварина/звір (а всі коти тварини), то критерій якщо воно натурально може бути вживано. Якщо кіт і їжак йдуть мандрувати, то писати потім кіт і звір дивно. Тобто це проблема тільки якщо можна вжити в тому реченні ці слова і воно буде ОК.
-
Невідомо – це коли ми тупо не знаємо до кого вони пішли додому, кота чи черепахи, щоб почати шити далі, і не можемо дізнатися. Але це різні істоти
- немає правильної відповіді
-
Тигр вкусив собаку. Коза/синхрофазотрон закричала від болі: “тигр, за що ти мене вкусив”.
-
- варіанти повторюються
- або один і той самий варіант двічі, або дуже схожі між собою (кіт/котик) і означають те саме
- Виключення: якщо там два різних персонажа, умовно кіт і його син котик, то все ОК.
- доконаний/недоконаний вид дієслів дублікатом не вважається (вона летіла/полетіла до свого вулика), але МОЖЕ бути “декілька правильних відповідей” (якщо контекст дозволяє обидва варіанти)
- або один і той самий варіант двічі, або дуже схожі між собою (кіт/котик) і означають те саме
Мовні проблеми
- неіснуючі слова в варіантах
-
Метелиця, собакі, …
-
- граматика в варіантах дає підказки, …
- … КРІМ дієслів
- … КРІМ варіанта відміченного F
- Наприклад, тут є підказки і це завдання некоректне:
-
черепаху/кота/метелика називали лінивОЮ
-
лисиця взяла свій кожух/сумку/їжу…
-
- А ці варіанти ОК, бо виключення
- Тут “сорочці” не підходить бо “всьому” означає чоловічий рід, АЛЕ під варіантом є літера F - тобто це норм
- Тут можна сказати, що “переслідували” очевидно не може бути перед “будувати” і відкинути варіант навіть не знаючи казки, АЛЕ це дієслова і тут все ОК
- ВИКЛЮЧЕННЯ: правила милозвучності (на жаль) не вважаємо граматичними проблемами.
- “з твариною/звіром” - “з звіром” граматично не ОК, але ми це ігноруємоjjj
Інші проблеми
- В деяких казках є граматичні проблеми, не шукайте спеціально, але якщо помітите – кидайте в чат з номером task де знайшли
- лише раз, в усіх інших тасках по цій історії можна не відмічати
- Щось інше, для цього поле внизу
Будь-які думки чи нотатки пишіть в полі внизу.