Разработайте эксперимент по оценке удобства использования (usability) новой системы голосового ввода для людей с ограниченными возможностями: сформулируйте гипотезы, критерии оценки, процедуру сбора данных и методы статистического анализа результатов

17 Ноя в 10:02
3 +3
0
Ответы
1
Гипотезы
- Основная (гипотеза удобства): новая система голосового ввода улучшает общую пригодность для использования по сравнению с базовой (контролем). Формально: нулевая гипотеза H0:H_0:H0 : разницы нет; альтернативная HA:H_A:HA : новая система лучше.
- Конкретные целевые гипотезы:
1. Время на задачу для новой системы меньше: H0:μΔt=0, HA:μΔt<0H_0:\mu_{\Delta t}=0,\ H_A:\mu_{\Delta t}<0H0 :μΔt =0, HA :μΔt <0.
2. Уровень успешного завершения задач (task success rate) выше: H0:pnew=pctrl, HA:pnew>pctrlH_0:p_{\text{new}}=p_{\text{ctrl}},\ H_A:p_{\text{new}}>p_{\text{ctrl}}H0 :pnew =pctrl , HA :pnew >pctrl .
3. Количество ошибок (error rate) ниже: H0:μΔe=0, HA:μΔe<0H_0:\mu_{\Delta e}=0,\ H_A:\mu_{\Delta e}<0H0 :μΔe =0, HA :μΔe <0.
4. Субъективная оценка (SUS или NPS) выше: H0:μΔs=0, HA:μΔs>0H_0:\mu_{\Delta s}=0,\ H_A:\mu_{\Delta s}>0H0 :μΔs =0, HA :μΔs >0.
Критерии оценки (метрики и формулы)
- Task success rate (успешные задачи / все задачи): SuccessRate=successful tasksattempted tasks\text{SuccessRate}=\dfrac{\text{successful tasks}}{\text{attempted tasks}}SuccessRate=attempted taskssuccessful tasks .
- Time on task (секунды): медиана и среднее с доверительным интервалом.
- Error rate: ErrorRate=number of errorstasks\text{ErrorRate}=\dfrac{\text{number of errors}}{\text{tasks}}ErrorRate=tasksnumber of errors .
- Command recognition accuracy (если лог доступен): Accuracy=correct recognitionsall recognitions\text{Accuracy}=\dfrac{\text{correct recognitions}}{\text{all recognitions}}Accuracy=all recognitionscorrect recognitions .
- Efficiency: Efficiency=SuccessRateTimeOnTask\text{Efficiency}=\dfrac{\text{SuccessRate}}{\text{TimeOnTask}}Efficiency=TimeOnTaskSuccessRate (опционально).
- Удовлетворённость: SUS (0–100), NASA-TLX (нагрузка).
- Качественные метрики: частота корректировок, количество повторов, типы ошибок, комментарии участников.
- Пороговые критерии для «приемлемости»: например, SuccessRate ≥ 0.850.850.85, средний SUS ≥ 707070 (опционально как целевые значения).
Процедура сбора данных
1. Дизайн:
- Рекомендуется кроссовер (within-subjects) — каждый участник пробует обе системы (новую и контроль) в случайном порядке с балансировкой, чтобы снизить межиндивидуальную вариабельность. Альтернатива: parallel (between-subjects) при ограничениях.
2. Участники:
- Н = предварительно рассчитанное (см. раздел «размер выборки»). Набор участников с различными ограничениями (мотори-ческие, зрительные, речевые и т.д.), стратификация по типу ограничения.
- Критерии включения/исключения и описание компенсаций/предусмотренных адаптаций.
3. Подготовка:
- Инструктаж и короткое обучение (стандартный сценарий, одинаковое для обеих систем).
- Пробные задачи (warm-up) для снижения эффекта обучения.
4. Задачи:
- Набор репрезентативных реалистичных задач (5–10) с заранее определёнными критериями успеха (например: отправить сообщение, задать напоминание, набрать номер).
- Для каждой задачи фиксировать: время начала/ окончания, успех, ошибки, число повторов, лог распознавания, аудиозапись (с согласия).
5. Сбор субъективных данных:
- После каждой задачи: краткая оценка сложности (Likert 1–7).
- После сессии: SUS, NASA-TLX, полуструктурированное интервью.
6. Протокол записи:
- Журналы событий, видео/аудио, логи распознавания, метаданные (тип устройства, уровень шума).
7. Этика и доступность:
- Информированное согласие, адаптированные формы, перерывы, возможность ассистирования.
Методы статистического анализа
1. Описательная статистика:
- Средние/медианы, стандартные отклонения, 95% доверительные интервалы.
2. Тестирование гипотез (в зависимости от дизайна и распределения):
- Для парных непрерывных метрик (время, SUS): парный t-тест если нормальность разностей соблюдена; иначе Wilcoxon signed-rank test.
- Для независимых групп: независимый t-тест или Mann–Whitney U.
- Для бинарных результатов (успех/неуспех) в парном дизайне: McNemar test; в непарном — chi-square или Fisher's exact.
- Для многопрофильных/повторных измерений: повторный measures ANOVA или, предпочтительнее, линейные смешанные модели (LMM) для учета случайного эффекта участника: Yij=β0+β1Xj+γi+ϵij,Y_{ij}=\beta_0+\beta_1 X_{j}+\gamma_i+\epsilon_{ij},Yij =β0 +β1 Xj +γi +ϵij , где γi\gamma_iγi — случайный эффект участника.
3. Размер эффекта:
- Cohen's d для различий средних, риск-относительный для пропорций, частично η2\eta^2η2 для ANOVA.
4. Множественная проверка гипотез:
- Контроль FWER (Bonferroni) или FDR (Benjamini–Hochberg) в зависимости от числа сравнения.
5. Обработка данных:
- Отсутствующие данные: анализ по принципу intention-to-treat, при необходимости множественная имputation.
- Выбросы: проверять, при необходимости анализ с/без выбросов.
6. Интерпретация:
- Сообщать p‑значение, доверительные интервалы и размер эффекта; оценивать практическую значимость, а не только статистическую.
Расчёт размера выборки (кратко)
- Для парного t‑теста: n=((z1−α/2+z1−β)σdΔ)2,n=\left(\dfrac{(z_{1-\alpha/2}+z_{1-\beta})\sigma_d}{\Delta}\right)^2,n=(Δ(z1α/2 +z1β )σd )2, где σd\sigma_dσd — стандартное отклонение разностей, Δ\DeltaΔ — ожидаемая минимально значимая разница, 1−β1-\beta1β — желаемая мощность (обычно 0.80.80.8), α\alphaα — уровень значимости (обычно 0.050.050.05).
- Для долей (парных): используйте формулы для пропорций или симуляции при сложных сценариях.
Короткие рекомендации по практической реализации
- Балансировать порядок систем, проводить обучение и warm-up.
- Логировать всё: временные метки, логи распознавания, аудио.
- Комбинировать количественные и качественные данные (интервью) для понимания причин проблем.
- Заявить заранее первичную метрику (primary outcome) и план анализа (pre-registered), чтобы избежать p‑hacking.
Если нужно, могу предложить шаблон протокола с конкретными задачами и примером расчёта размера выборки по ожидаемым параметрам.
17 Ноя в 10:53
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир