Разработайте план мини‑исследования корпуса: как менялось использование модального глагола «dürfen» в новостных текстах за последние 50 лет; какие гипотезы выдвинете и какие методы корпусного анализа примените
Предыдущий
вопрос Следующий
вопрос

Question

Разработайте план мини‑исследования корпуса: как менялось использование модального глагола «dürfen» в новостных текстах за последние 50 лет; какие гипотезы выдвинете и какие методы корпусного анализа примените
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по немецкому языку

Разработайте план ми...

eva

17 Ноя в 06:58

1 +1

0

Helper · Answer 1

Краткий план мини‑исследования: как менялось использование модального глагола «dürfen» в новостных текстах за последние

50

лет.
1) Цели
- Описать динамику частотности формы «dürfen» и её производных (включая формы модального значения: „dürfte“ и перфект).
- Разделить функции: деонтическая (разрешение/запрет) vs эпистемическая (вероятностная оценка) и проследить их тренды.
- Выявить изменения синтаксических и коллокационных контекстов (negation, passive, infinitiv‑konstruktionen и т. п.).
2) Гипотезы (примерно

3

–

5

)
- H1: Частотность «dürfen» в новостных текстах менялась со временем (рост/падение) — альтернативная гипотеза против стационарности.
- H2: Доля эпистемических употреблений («dürfte» как эвфемизм/маркёр вероятности) увеличилась относительно деонтических употреблений.
- H3: Увеличение/снижение связей с отрицанием (nicht dürfen) связано с изменением жанровой структуры новостей.
- H4: После крупных социополитических событий (например, объединение Германии) и орфографической реформы будут наблюдаться кратковременные сдвиги в частотах/форме.
3) Данные
- Корпус: крупный диахронический новостной корпус немецкого языка (например DeReKo/Österreichisches Zeitungsarchiv/DWDS/сборы газет). При невозможности — собирать статьи из архивов ведущих газет.
- Покрытие: последние

50

лет; разбить на интервалы (рекомендовано: когорты по

10

лет или скользящее окно шириной

5

лет).
- Минимальный объём текста в каждой когорте: стремиться к сопоставимым размерам; если различия — нормализовать частоты (см. ниже).
4) Предобработка
- Токенизация, лемматизация, POS‑тэггинг, dependency‑парсинг (модальные глаголы — важно выделить формы: dürfen, darf, durften, gedurft, dürfte и пр.).
- Нормализация диакритики/ASCII‑вариантов.
- Размечать и фильтровать по жанрам/разделам (политика, экономика, культура) для контролируемых сравнений.
5) Разметка функций модальности
- Нужна золотая выборка ручной аннотации (~

500

–

1000

контекстов, стратифицированных по времени) для меток «деонтическая/эпистемическая/прочее».
- На основе аннотации обучить классификатор (например, SVM/RandomForest/Transformer) для массовой разметки.
- Оценка качества: precision/recall/F1 на валидационной выборке.
6) Анализы
a) Частотный анализ
- Считать абсолютные частоты и нормализованные частоты:

\text{fpmw} = \frac{\text{count}}{\text{tokens}} \times 10^{6}

(частота на миллион токенов).
- Построить временные ряды по когорте/годам; сглаживание LOESS.
b) Статистика изменений
- Тест стационарности/изменений: χ^2‑тест по таблице период × наличие (формы), статистика:

\chi^{2}=\sum \frac{(O-E)^{2}}{E}.

- Логистическая регрессия/GLM для моделирования вероятности употребления «dürfen» (или эпистемического использования) как функции времени и контролей (жанр, длина статьи):

\log\frac{p}{1-p} = \beta_0 + \beta_1 t + \beta_2 \text{genre} + \ldots

где

t

— год (или порядковый номер когорты).
c) Сегментация и detection of change points
- Поиск точек структурного изменения (CUSUM, Bayesian change point).
d) Синтаксический/конструкционный анализ
- Разбивка по конструкциям: «dürfen + Infinitiv», «nicht dürfen», пассивные конструкции, перфект «hat gedurft».
- Частоты и пропорции конструкций по времени.
e) Коллокационный анализ и семантика
- Collocation (MI, t‑score, log‑likelihood) в окне ±5 токенов; ключевые леммы (например, „erlauben“, „verboten“, „dürfen“ рядом с названиями акторов: Regierung, Gericht).
- Кластеризация контекстов (word embeddings + кластеринг) для выявления семантических сдвигов.
f) Анализ по жанрам и источникам
- Сравнить тренды между редакциями/жанрами; контроль за изменениями в корпусе.
7) Валидация и надёжность
- Bootstrap‑оценки доверительных интервалов для fpmw.
- Проверка устойчивости результатов при разных размерах окон/бинах.
8) Визуализация и отчёт
- Графики: временные ряды (fpmw), доля эпистемических vs деонтических употреблений, heatmap по жанрам и десятилетиям, ключевые коллокации по периодам.
- Таблицы статистических моделей (коэффициенты, p‑values, CI).
9) Ожидаемые результаты и интерпретация
- Конкретные интерпретации зависят от данных; важно обсуждать возможные причины изменений (редакционная политика, жанровые сдвиги, социокультурные события) и ограничивать выводы корреляцией, а не причинностью.
10) Примерный план работ и ресурсы
- Сбор и предобработка:

1

–

2

недели.
- Ручная аннотация и обучение классификатора:

2

–

3

недели.
- Анализы и визуализации:

1

–

2

недели.
- Отчёт:

1

неделя.
Замечания по практике: контролируйте размер корпусов по периодам, учитывайте влияние OCR‑ошибок в архивных текстах и возможные жанровые смещения; ручная проверка ключевых выводов обязательна.

Другие вопросы eva

Другие вопросы
eva