Предложите методологию корпусного исследования изменения частоты употребления «das» vs «dass» после орфографической реформы, указав критерии отбора корпусов, метрики для сравнения и статистические тесты для проверки значимости изменений
Краткая методология. 1) Критерии отбора корпусов - Диахроничность: покрытие достаточного периода до и после реформы (минимум несколько лет, лучше десятки лет). - Сравнимость регистров: выбрать пары сопоставимых жанров (газеты ↔ газеты, веб ↔ веб, субтитры ↔ субтитры) или использовать сбалансированные корпуса. - Метаданные: точная дата текста, жанр, источник, автор (если есть). - Качество текста: низкий уровень OCR-ошибок; для исторических данных — наличие исправлений/нормализаций. - Размер: достаточное количество токенов в каждой временной ячейке (например, год) для статистической мощности. - Репрезентативность/доступность: предпочтительно крупные открытые корпуса (DeReKo, DWDS, German Press Archive, OpenSubtitles, web corpora), но сохранять сопоставимость по жанру. 2) Предобработка и аннотация - Нормализация орфографии: привести «daß» → «dass» (если цель — считать их эквивалентами), но сохранять исходные формы для контроля. - Токенизация и POS-теггинг/зависимости (UD): важна дисambiguация функций «das» (DET/PRON/REL) vs «dass» (SCONJ/complementizer). - Правило/классификатор для выделения случаев, где «das» выполняет роль союзного «dass» (например: POS==SCONJ или dependency label == mark/comp и т. п.). Рекомендую ручную разметку случайной выборки для оценки точности автоматического теггера и поправки ошибок. - Стратификация по годам/кварталам и по жанрам; удалить цитаты/переводы по необходимости. 3) Метрики для сравнения - Абсолютные частоты: cdass(t)c_{dass}(t)cdass(t), cdas_sub(t)c_{das\_sub}(t)cdas_sub(t) — количество токенов «dass» и количество «das», помеченных как союз/вводящая часть придаточного предложения в моменте ttt. - Нормированные частоты: частота на миллион токенов f(t)=c(t)N(t)×106f(t)=\frac{c(t)}{N(t)}\times 10^6f(t)=N(t)c(t)×106. Формально: p(t)=ctarget(t)N(t)p(t)=\frac{c_{target}(t)}{N(t)}p(t)=N(t)ctarget(t). - Пропорция замены/путаницы: доля корректных/некорректных написаний в роли complementizer: π(t)=cdass(t)cdass(t)+cdas_sub(t)\pi(t)=\frac{c_{dass}(t)}{c_{dass}(t)+c_{das\_sub}(t)}π(t)=cdass(t)+cdas_sub(t)cdass(t). - Отношение частот (odds): odds(t)=π(t)1−π(t)\text{odds}(t)=\frac{\pi(t)}{1-\pi(t)}odds(t)=1−π(t)π(t). - Изменение во времени: абсолютная разница Δπ=πpost−πpre\Delta \pi = \pi_{post}-\pi_{pre}Δπ=πpost−πpre и относительный рост πpost−πpreπpre\frac{\pi_{post}-\pi_{pre}}{\pi_{pre}}πpreπpost−πpre. - Эффект размера: odds ratio OR=exp(β)OR=\exp(\beta)OR=exp(β) из логистической регрессии; Cramér's V для таблиц сопряжённости: V=χ2N(k−1)V=\sqrt{\frac{\chi^2}{N(k-1)}}V=N(k−1)χ2. 4) Статистические тесты и модели (когда и почему) - Сравнение двух периодов (до/после): - Контингентная таблица (counts: «dass» vs «das_sub») × (периоды): критерий χ². Если ожидаемые частоты малы — тест Фишера. Соответствующая статистика: χ2\chi^2χ2. Для пропорций можно использовать z‑тест для долей. - Тренды во времени: - Логистическая регрессия на уровне токена: зависимая переменная yi=1y_i=1yi=1 если токен — «dass» (в функции союз), иначе 000; модель: logpi1−pi=β0+β1⋅timei+β2⋅Di+β3⋅timei⋅Di+…\log\frac{p_i}{1-p_i}=\beta_0+\beta_1\cdot time_i+\beta_2\cdot D_i+\beta_3\cdot time_i\cdot D_i + \dotslog1−pipi=β0+β1⋅timei+β2⋅Di+β3⋅timei⋅Di+…, где DiD_iDi — индикатор постреформы. Коэффициенты β \beta β тестируются на значимость; OR=exp(β)OR=\exp(\beta)OR=exp(β). - По счётам на период: (приближенно) пуассоновская или негативно-биномиальная регрессия с офсетом лог(токенов): log(λt)=α+γ⋅timet+log(Nt)\log(\lambda_t)=\alpha+\gamma\cdot time_t + \log(N_t)log(λt)=α+γ⋅timet+log(Nt). - Разрыв/вмешательство (Interrupted Time Series / segmented regression): - Оценить немедленный уровень и изменение тренда в точке реформы: модель с сегментированными коэффициентами (см. логит-модель с DtD_tDt и interaction выше). - Смешанные модели: - Если используются несколько корпусов/жанров: mixed‑effects logistic regression с случайными перехватами/наклонами, например (1+time∣corpus)(1+time|corpus)(1+time∣corpus), чтобы учесть зависимость наблюдений внутри корпуса/текста. - Альтернативные проверки: - Change-point detection (CUSUM, Bayesian) для обнаружения дат резкого изменения. - Коррекция множественных сравнений: Benjamini–Hochberg или Bonferroni при множественных тестах. 5) Оценки значимости и размеров эффекта - Для логистической модели сообщать доверительные интервалы для OR и p‑value. - Для χ² — Cramér's V как мера силы связи. - Для пропорций — абсолютная разница и Cohen's h: h=2arcsinp1−2arcsinp2h=2\arcsin\sqrt{p_1}-2\arcsin\sqrt{p_2}h=2arcsinp1−2arcsinp2. - Минимально важный эффект (practical significance) заранее определить (например, уменьшение доли ошибок на x%x\%x%). 6) Валидация и устойчивость результатов - Ручная проверка случайной подвыборки для оценки ошибок автоматической классификации; скорректировать оценки по ошибкам (post-stratification). - Анализы по подкорпусам (жанр, регион, авторская группа) — устойчивость эффекта. - Тесты на автокорреляцию остатков временных моделей; при наличии — использовать ARIMA/GLS или robust SE. - Проверка чувствительности к нормализации «daß»→«dass» и к фильтрации OCR. 7) Практические рекомендации - Структура отчёта: описание корпусов, размеры и метаданные; процедуры предобработки; качества POS/парсера; таблицы временных рядов; модели с коэффициентами и CI; визуализация временных рядов и сегментированных регрессий. - Минимальный статистический набор для публикации: частоты по годам, χ²/Fisher для до/после, сегментированная логистическая регрессия с контролем по корпусу/жанру и CI для OR. Это даёт воспроизводимую схему: подобрать сопоставимые диахронические корпуса, корректно дискриминировать функции «das» vs «dass» (POS/синтаксис + ручная валидация), измерить нормализованные частоты и доли, протестировать изменения χ² / Fisher для разовых сравнений и моделями (логит, Poisson/NegBin, ITS, mixed‑effects) для учёта времени и структуры данных; оценивать значимость и практическую значимость через OR, CI и меры эффекта.
1) Критерии отбора корпусов
- Диахроничность: покрытие достаточного периода до и после реформы (минимум несколько лет, лучше десятки лет).
- Сравнимость регистров: выбрать пары сопоставимых жанров (газеты ↔ газеты, веб ↔ веб, субтитры ↔ субтитры) или использовать сбалансированные корпуса.
- Метаданные: точная дата текста, жанр, источник, автор (если есть).
- Качество текста: низкий уровень OCR-ошибок; для исторических данных — наличие исправлений/нормализаций.
- Размер: достаточное количество токенов в каждой временной ячейке (например, год) для статистической мощности.
- Репрезентативность/доступность: предпочтительно крупные открытые корпуса (DeReKo, DWDS, German Press Archive, OpenSubtitles, web corpora), но сохранять сопоставимость по жанру.
2) Предобработка и аннотация
- Нормализация орфографии: привести «daß» → «dass» (если цель — считать их эквивалентами), но сохранять исходные формы для контроля.
- Токенизация и POS-теггинг/зависимости (UD): важна дисambiguация функций «das» (DET/PRON/REL) vs «dass» (SCONJ/complementizer).
- Правило/классификатор для выделения случаев, где «das» выполняет роль союзного «dass» (например: POS==SCONJ или dependency label == mark/comp и т. п.). Рекомендую ручную разметку случайной выборки для оценки точности автоматического теггера и поправки ошибок.
- Стратификация по годам/кварталам и по жанрам; удалить цитаты/переводы по необходимости.
3) Метрики для сравнения
- Абсолютные частоты: cdass(t)c_{dass}(t)cdass (t), cdas_sub(t)c_{das\_sub}(t)cdas_sub (t) — количество токенов «dass» и количество «das», помеченных как союз/вводящая часть придаточного предложения в моменте ttt.
- Нормированные частоты: частота на миллион токенов f(t)=c(t)N(t)×106f(t)=\frac{c(t)}{N(t)}\times 10^6f(t)=N(t)c(t) ×106. Формально: p(t)=ctarget(t)N(t)p(t)=\frac{c_{target}(t)}{N(t)}p(t)=N(t)ctarget (t) .
- Пропорция замены/путаницы: доля корректных/некорректных написаний в роли complementizer: π(t)=cdass(t)cdass(t)+cdas_sub(t)\pi(t)=\frac{c_{dass}(t)}{c_{dass}(t)+c_{das\_sub}(t)}π(t)=cdass (t)+cdas_sub (t)cdass (t) .
- Отношение частот (odds): odds(t)=π(t)1−π(t)\text{odds}(t)=\frac{\pi(t)}{1-\pi(t)}odds(t)=1−π(t)π(t) .
- Изменение во времени: абсолютная разница Δπ=πpost−πpre\Delta \pi = \pi_{post}-\pi_{pre}Δπ=πpost −πpre и относительный рост πpost−πpreπpre\frac{\pi_{post}-\pi_{pre}}{\pi_{pre}}πpre πpost −πpre .
- Эффект размера: odds ratio OR=exp(β)OR=\exp(\beta)OR=exp(β) из логистической регрессии; Cramér's V для таблиц сопряжённости: V=χ2N(k−1)V=\sqrt{\frac{\chi^2}{N(k-1)}}V=N(k−1)χ2 .
4) Статистические тесты и модели (когда и почему)
- Сравнение двух периодов (до/после):
- Контингентная таблица (counts: «dass» vs «das_sub») × (периоды): критерий χ². Если ожидаемые частоты малы — тест Фишера. Соответствующая статистика: χ2\chi^2χ2. Для пропорций можно использовать z‑тест для долей.
- Тренды во времени:
- Логистическая регрессия на уровне токена: зависимая переменная yi=1y_i=1yi =1 если токен — «dass» (в функции союз), иначе 000; модель: logpi1−pi=β0+β1⋅timei+β2⋅Di+β3⋅timei⋅Di+…\log\frac{p_i}{1-p_i}=\beta_0+\beta_1\cdot time_i+\beta_2\cdot D_i+\beta_3\cdot time_i\cdot D_i + \dotslog1−pi pi =β0 +β1 ⋅timei +β2 ⋅Di +β3 ⋅timei ⋅Di +…, где DiD_iDi — индикатор постреформы. Коэффициенты β \beta β тестируются на значимость; OR=exp(β)OR=\exp(\beta)OR=exp(β).
- По счётам на период: (приближенно) пуассоновская или негативно-биномиальная регрессия с офсетом лог(токенов): log(λt)=α+γ⋅timet+log(Nt)\log(\lambda_t)=\alpha+\gamma\cdot time_t + \log(N_t)log(λt )=α+γ⋅timet +log(Nt ).
- Разрыв/вмешательство (Interrupted Time Series / segmented regression):
- Оценить немедленный уровень и изменение тренда в точке реформы: модель с сегментированными коэффициентами (см. логит-модель с DtD_tDt и interaction выше).
- Смешанные модели:
- Если используются несколько корпусов/жанров: mixed‑effects logistic regression с случайными перехватами/наклонами, например (1+time∣corpus)(1+time|corpus)(1+time∣corpus), чтобы учесть зависимость наблюдений внутри корпуса/текста.
- Альтернативные проверки:
- Change-point detection (CUSUM, Bayesian) для обнаружения дат резкого изменения.
- Коррекция множественных сравнений: Benjamini–Hochberg или Bonferroni при множественных тестах.
5) Оценки значимости и размеров эффекта
- Для логистической модели сообщать доверительные интервалы для OR и p‑value.
- Для χ² — Cramér's V как мера силы связи.
- Для пропорций — абсолютная разница и Cohen's h: h=2arcsinp1−2arcsinp2h=2\arcsin\sqrt{p_1}-2\arcsin\sqrt{p_2}h=2arcsinp1 −2arcsinp2 .
- Минимально важный эффект (practical significance) заранее определить (например, уменьшение доли ошибок на x%x\%x%).
6) Валидация и устойчивость результатов
- Ручная проверка случайной подвыборки для оценки ошибок автоматической классификации; скорректировать оценки по ошибкам (post-stratification).
- Анализы по подкорпусам (жанр, регион, авторская группа) — устойчивость эффекта.
- Тесты на автокорреляцию остатков временных моделей; при наличии — использовать ARIMA/GLS или robust SE.
- Проверка чувствительности к нормализации «daß»→«dass» и к фильтрации OCR.
7) Практические рекомендации
- Структура отчёта: описание корпусов, размеры и метаданные; процедуры предобработки; качества POS/парсера; таблицы временных рядов; модели с коэффициентами и CI; визуализация временных рядов и сегментированных регрессий.
- Минимальный статистический набор для публикации: частоты по годам, χ²/Fisher для до/после, сегментированная логистическая регрессия с контролем по корпусу/жанру и CI для OR.
Это даёт воспроизводимую схему: подобрать сопоставимые диахронические корпуса, корректно дискриминировать функции «das» vs «dass» (POS/синтаксис + ручная валидация), измерить нормализованные частоты и доли, протестировать изменения χ² / Fisher для разовых сравнений и моделями (логит, Poisson/NegBin, ITS, mixed‑effects) для учёта времени и структуры данных; оценивать значимость и практическую значимость через OR, CI и меры эффекта.