Разработайте эксперимент по оценке удобства использования (usability) новой системы голосового ввода для людей с ограниченными возможностями: сформулируйте гипотезы, критерии оценки, процедуру сбора данных и методы статистического анализа результатов
Предыдущий
вопрос Следующий
вопрос

Question

Разработайте эксперимент по оценке удобства использования (usability) новой системы голосового ввода для людей с ограниченными возможностями: сформулируйте гипотезы, критерии оценки, процедуру сбора данных и методы статистического анализа результатов
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Разработайте экспери...

eva

17 Ноя в 10:02

3 +3

0

Helper · Answer 1

Гипотезы
- Основная (гипотеза удобства): новая система голосового ввода улучшает общую пригодность для использования по сравнению с базовой (контролем). Формально: нулевая гипотеза

H_0:

разницы нет; альтернативная

H_A:

новая система лучше.
- Конкретные целевые гипотезы:
1. Время на задачу для новой системы меньше:

HA:μΔt<0H_0:\mu_{\Delta t}=0,\ H_A:\mu_{\Delta t}<0

.
2. Уровень успешного завершения задач (task success rate) выше:

HA:pnew>pctrlH_0:p_{\text{new}}=p_{\text{ctrl}},\ H_A:p_{\text{new}}>p_{\text{ctrl}}

.
3. Количество ошибок (error rate) ниже:

HA:μΔe<0H_0:\mu_{\Delta e}=0,\ H_A:\mu_{\Delta e}<0

.
4. Субъективная оценка (SUS или NPS) выше:

HA:μΔs>0H_0:\mu_{\Delta s}=0,\ H_A:\mu_{\Delta s}>0

.
Критерии оценки (метрики и формулы)
- Task success rate (успешные задачи / все задачи):

tasks\text{SuccessRate}=\dfrac{\text{successful tasks}}{\text{attempted tasks}}

.
- Time on task (секунды): медиана и среднее с доверительным интервалом.
- Error rate:

errorstasks\text{ErrorRate}=\dfrac{\text{number of errors}}{\text{tasks}}

.
- Command recognition accuracy (если лог доступен):

recognitions\text{Accuracy}=\dfrac{\text{correct recognitions}}{\text{all recognitions}}

.
- Efficiency:

Efficiency=SuccessRateTimeOnTask\text{Efficiency}=\dfrac{\text{SuccessRate}}{\text{TimeOnTask}}

(опционально).
- Удовлетворённость: SUS (0–100), NASA-TLX (нагрузка).
- Качественные метрики: частота корректировок, количество повторов, типы ошибок, комментарии участников.
- Пороговые критерии для «приемлемости»: например, SuccessRate ≥

0.85

, средний SUS ≥

70

(опционально как целевые значения).
Процедура сбора данных
1. Дизайн:
- Рекомендуется кроссовер (within-subjects) — каждый участник пробует обе системы (новую и контроль) в случайном порядке с балансировкой, чтобы снизить межиндивидуальную вариабельность. Альтернатива: parallel (between-subjects) при ограничениях.
2. Участники:
- Н = предварительно рассчитанное (см. раздел «размер выборки»). Набор участников с различными ограничениями (мотори-ческие, зрительные, речевые и т.д.), стратификация по типу ограничения.
- Критерии включения/исключения и описание компенсаций/предусмотренных адаптаций.
3. Подготовка:
- Инструктаж и короткое обучение (стандартный сценарий, одинаковое для обеих систем).
- Пробные задачи (warm-up) для снижения эффекта обучения.
4. Задачи:
- Набор репрезентативных реалистичных задач (5–10) с заранее определёнными критериями успеха (например: отправить сообщение, задать напоминание, набрать номер).
- Для каждой задачи фиксировать: время начала/ окончания, успех, ошибки, число повторов, лог распознавания, аудиозапись (с согласия).
5. Сбор субъективных данных:
- После каждой задачи: краткая оценка сложности (Likert 1–7).
- После сессии: SUS, NASA-TLX, полуструктурированное интервью.
6. Протокол записи:
- Журналы событий, видео/аудио, логи распознавания, метаданные (тип устройства, уровень шума).
7. Этика и доступность:
- Информированное согласие, адаптированные формы, перерывы, возможность ассистирования.
Методы статистического анализа
1. Описательная статистика:
- Средние/медианы, стандартные отклонения, 95% доверительные интервалы.
2. Тестирование гипотез (в зависимости от дизайна и распределения):
- Для парных непрерывных метрик (время, SUS): парный t-тест если нормальность разностей соблюдена; иначе Wilcoxon signed-rank test.
- Для независимых групп: независимый t-тест или Mann–Whitney U.
- Для бинарных результатов (успех/неуспех) в парном дизайне: McNemar test; в непарном — chi-square или Fisher's exact.
- Для многопрофильных/повторных измерений: повторный measures ANOVA или, предпочтительнее, линейные смешанные модели (LMM) для учета случайного эффекта участника:

Yij=β0+β1Xj+γi+ϵij,Y_{ij}=\beta_0+\beta_1 X_{j}+\gamma_i+\epsilon_{ij},

где

γi\gamma_i

— случайный эффект участника.
3. Размер эффекта:
- Cohen's d для различий средних, риск-относительный для пропорций, частично

η2\eta^2

для ANOVA.
4. Множественная проверка гипотез:
- Контроль FWER (Bonferroni) или FDR (Benjamini–Hochberg) в зависимости от числа сравнения.
5. Обработка данных:
- Отсутствующие данные: анализ по принципу intention-to-treat, при необходимости множественная имputation.
- Выбросы: проверять, при необходимости анализ с/без выбросов.
6. Интерпретация:
- Сообщать p‑значение, доверительные интервалы и размер эффекта; оценивать практическую значимость, а не только статистическую.
Расчёт размера выборки (кратко)
- Для парного t‑теста:

n=((z1−α/2+z1−β)σdΔ)2,n=\left(\dfrac{(z_{1-\alpha/2}+z_{1-\beta})\sigma_d}{\Delta}\right)^2,

где

σd\sigma_d

— стандартное отклонение разностей,

Δ\Delta

— ожидаемая минимально значимая разница,

1−β1-\beta

— желаемая мощность (обычно

0.8

),

α\alpha

— уровень значимости (обычно

0.05

).
- Для долей (парных): используйте формулы для пропорций или симуляции при сложных сценариях.
Короткие рекомендации по практической реализации
- Балансировать порядок систем, проводить обучение и warm-up.
- Логировать всё: временные метки, логи распознавания, аудио.
- Комбинировать количественные и качественные данные (интервью) для понимания причин проблем.
- Заявить заранее первичную метрику (primary outcome) и план анализа (pre-registered), чтобы избежать p‑hacking.
Если нужно, могу предложить шаблон протокола с конкретными задачами и примером расчёта размера выборки по ожидаемым параметрам.

Другие вопросы eva

Другие вопросы
eva