Разработайте план мини‑исследования корпуса: как менялось использование модального глагола «dürfen» в новостных текстах за последние 50 лет; какие гипотезы выдвинете и какие методы корпусного анализа примените
Краткий план мини‑исследования: как менялось использование модального глагола «dürfen» в новостных текстах за последние 505050 лет. 1) Цели - Описать динамику частотности формы «dürfen» и её производных (включая формы модального значения: „dürfte“ и перфект). - Разделить функции: деонтическая (разрешение/запрет) vs эпистемическая (вероятностная оценка) и проследить их тренды. - Выявить изменения синтаксических и коллокационных контекстов (negation, passive, infinitiv‑konstruktionen и т. п.). 2) Гипотезы (примерно 333–555) - H1: Частотность «dürfen» в новостных текстах менялась со временем (рост/падение) — альтернативная гипотеза против стационарности. - H2: Доля эпистемических употреблений («dürfte» как эвфемизм/маркёр вероятности) увеличилась относительно деонтических употреблений. - H3: Увеличение/снижение связей с отрицанием (nicht dürfen) связано с изменением жанровой структуры новостей. - H4: После крупных социополитических событий (например, объединение Германии) и орфографической реформы будут наблюдаться кратковременные сдвиги в частотах/форме. 3) Данные - Корпус: крупный диахронический новостной корпус немецкого языка (например DeReKo/Österreichisches Zeitungsarchiv/DWDS/сборы газет). При невозможности — собирать статьи из архивов ведущих газет. - Покрытие: последние 505050 лет; разбить на интервалы (рекомендовано: когорты по 101010 лет или скользящее окно шириной 555 лет). - Минимальный объём текста в каждой когорте: стремиться к сопоставимым размерам; если различия — нормализовать частоты (см. ниже). 4) Предобработка - Токенизация, лемматизация, POS‑тэггинг, dependency‑парсинг (модальные глаголы — важно выделить формы: dürfen, darf, durften, gedurft, dürfte и пр.). - Нормализация диакритики/ASCII‑вариантов. - Размечать и фильтровать по жанрам/разделам (политика, экономика, культура) для контролируемых сравнений. 5) Разметка функций модальности - Нужна золотая выборка ручной аннотации (~500500500–100010001000 контекстов, стратифицированных по времени) для меток «деонтическая/эпистемическая/прочее». - На основе аннотации обучить классификатор (например, SVM/RandomForest/Transformer) для массовой разметки. - Оценка качества: precision/recall/F1 на валидационной выборке. 6) Анализы a) Частотный анализ - Считать абсолютные частоты и нормализованные частоты: fpmw=counttokens×106 \text{fpmw} = \frac{\text{count}}{\text{tokens}} \times 10^{6} fpmw=tokenscount×106 (частота на миллион токенов). - Построить временные ряды по когорте/годам; сглаживание LOESS. b) Статистика изменений - Тест стационарности/изменений: χ^2‑тест по таблице период × наличие (формы), статистика: χ2=∑(O−E)2E. \chi^{2}=\sum \frac{(O-E)^{2}}{E}. χ2=∑E(O−E)2.
- Логистическая регрессия/GLM для моделирования вероятности употребления «dürfen» (или эпистемического использования) как функции времени и контролей (жанр, длина статьи): logp1−p=β0+β1t+β2genre+… \log\frac{p}{1-p} = \beta_0 + \beta_1 t + \beta_2 \text{genre} + \ldots log1−pp=β0+β1t+β2genre+…
где ttt — год (или порядковый номер когорты). c) Сегментация и detection of change points - Поиск точек структурного изменения (CUSUM, Bayesian change point). d) Синтаксический/конструкционный анализ - Разбивка по конструкциям: «dürfen + Infinitiv», «nicht dürfen», пассивные конструкции, перфект «hat gedurft». - Частоты и пропорции конструкций по времени. e) Коллокационный анализ и семантика - Collocation (MI, t‑score, log‑likelihood) в окне ±5 токенов; ключевые леммы (например, „erlauben“, „verboten“, „dürfen“ рядом с названиями акторов: Regierung, Gericht). - Кластеризация контекстов (word embeddings + кластеринг) для выявления семантических сдвигов. f) Анализ по жанрам и источникам - Сравнить тренды между редакциями/жанрами; контроль за изменениями в корпусе. 7) Валидация и надёжность - Bootstrap‑оценки доверительных интервалов для fpmw. - Проверка устойчивости результатов при разных размерах окон/бинах. 8) Визуализация и отчёт - Графики: временные ряды (fpmw), доля эпистемических vs деонтических употреблений, heatmap по жанрам и десятилетиям, ключевые коллокации по периодам. - Таблицы статистических моделей (коэффициенты, p‑values, CI). 9) Ожидаемые результаты и интерпретация - Конкретные интерпретации зависят от данных; важно обсуждать возможные причины изменений (редакционная политика, жанровые сдвиги, социокультурные события) и ограничивать выводы корреляцией, а не причинностью. 10) Примерный план работ и ресурсы - Сбор и предобработка: 111–222 недели. - Ручная аннотация и обучение классификатора: 222–333 недели. - Анализы и визуализации: 111–222 недели. - Отчёт: 111 неделя. Замечания по практике: контролируйте размер корпусов по периодам, учитывайте влияние OCR‑ошибок в архивных текстах и возможные жанровые смещения; ручная проверка ключевых выводов обязательна.
1) Цели
- Описать динамику частотности формы «dürfen» и её производных (включая формы модального значения: „dürfte“ и перфект).
- Разделить функции: деонтическая (разрешение/запрет) vs эпистемическая (вероятностная оценка) и проследить их тренды.
- Выявить изменения синтаксических и коллокационных контекстов (negation, passive, infinitiv‑konstruktionen и т. п.).
2) Гипотезы (примерно 333–555)
- H1: Частотность «dürfen» в новостных текстах менялась со временем (рост/падение) — альтернативная гипотеза против стационарности.
- H2: Доля эпистемических употреблений («dürfte» как эвфемизм/маркёр вероятности) увеличилась относительно деонтических употреблений.
- H3: Увеличение/снижение связей с отрицанием (nicht dürfen) связано с изменением жанровой структуры новостей.
- H4: После крупных социополитических событий (например, объединение Германии) и орфографической реформы будут наблюдаться кратковременные сдвиги в частотах/форме.
3) Данные
- Корпус: крупный диахронический новостной корпус немецкого языка (например DeReKo/Österreichisches Zeitungsarchiv/DWDS/сборы газет). При невозможности — собирать статьи из архивов ведущих газет.
- Покрытие: последние 505050 лет; разбить на интервалы (рекомендовано: когорты по 101010 лет или скользящее окно шириной 555 лет).
- Минимальный объём текста в каждой когорте: стремиться к сопоставимым размерам; если различия — нормализовать частоты (см. ниже).
4) Предобработка
- Токенизация, лемматизация, POS‑тэггинг, dependency‑парсинг (модальные глаголы — важно выделить формы: dürfen, darf, durften, gedurft, dürfte и пр.).
- Нормализация диакритики/ASCII‑вариантов.
- Размечать и фильтровать по жанрам/разделам (политика, экономика, культура) для контролируемых сравнений.
5) Разметка функций модальности
- Нужна золотая выборка ручной аннотации (~500500500–100010001000 контекстов, стратифицированных по времени) для меток «деонтическая/эпистемическая/прочее».
- На основе аннотации обучить классификатор (например, SVM/RandomForest/Transformer) для массовой разметки.
- Оценка качества: precision/recall/F1 на валидационной выборке.
6) Анализы
a) Частотный анализ
- Считать абсолютные частоты и нормализованные частоты: fpmw=counttokens×106 \text{fpmw} = \frac{\text{count}}{\text{tokens}} \times 10^{6} fpmw=tokenscount ×106 (частота на миллион токенов).
- Построить временные ряды по когорте/годам; сглаживание LOESS.
b) Статистика изменений
- Тест стационарности/изменений: χ^2‑тест по таблице период × наличие (формы), статистика:
χ2=∑(O−E)2E. \chi^{2}=\sum \frac{(O-E)^{2}}{E}. χ2=∑E(O−E)2 . - Логистическая регрессия/GLM для моделирования вероятности употребления «dürfen» (или эпистемического использования) как функции времени и контролей (жанр, длина статьи):
logp1−p=β0+β1t+β2genre+… \log\frac{p}{1-p} = \beta_0 + \beta_1 t + \beta_2 \text{genre} + \ldots log1−pp =β0 +β1 t+β2 genre+… где ttt — год (или порядковый номер когорты).
c) Сегментация и detection of change points
- Поиск точек структурного изменения (CUSUM, Bayesian change point).
d) Синтаксический/конструкционный анализ
- Разбивка по конструкциям: «dürfen + Infinitiv», «nicht dürfen», пассивные конструкции, перфект «hat gedurft».
- Частоты и пропорции конструкций по времени.
e) Коллокационный анализ и семантика
- Collocation (MI, t‑score, log‑likelihood) в окне ±5 токенов; ключевые леммы (например, „erlauben“, „verboten“, „dürfen“ рядом с названиями акторов: Regierung, Gericht).
- Кластеризация контекстов (word embeddings + кластеринг) для выявления семантических сдвигов.
f) Анализ по жанрам и источникам
- Сравнить тренды между редакциями/жанрами; контроль за изменениями в корпусе.
7) Валидация и надёжность
- Bootstrap‑оценки доверительных интервалов для fpmw.
- Проверка устойчивости результатов при разных размерах окон/бинах.
8) Визуализация и отчёт
- Графики: временные ряды (fpmw), доля эпистемических vs деонтических употреблений, heatmap по жанрам и десятилетиям, ключевые коллокации по периодам.
- Таблицы статистических моделей (коэффициенты, p‑values, CI).
9) Ожидаемые результаты и интерпретация
- Конкретные интерпретации зависят от данных; важно обсуждать возможные причины изменений (редакционная политика, жанровые сдвиги, социокультурные события) и ограничивать выводы корреляцией, а не причинностью.
10) Примерный план работ и ресурсы
- Сбор и предобработка: 111–222 недели.
- Ручная аннотация и обучение классификатора: 222–333 недели.
- Анализы и визуализации: 111–222 недели.
- Отчёт: 111 неделя.
Замечания по практике: контролируйте размер корпусов по периодам, учитывайте влияние OCR‑ошибок в архивных текстах и возможные жанровые смещения; ручная проверка ключевых выводов обязательна.