Разработайте план мини‑исследования корпуса: как менялось использование модального глагола «dürfen» в новостных текстах за последние 50 лет; какие гипотезы выдвинете и какие методы корпусного анализа примените

17 Ноя в 06:58
1 +1
0
Ответы
1
Краткий план мини‑исследования: как менялось использование модального глагола «dürfen» в новостных текстах за последние 505050 лет.
1) Цели
- Описать динамику частотности формы «dürfen» и её производных (включая формы модального значения: „dürfte“ и перфект).
- Разделить функции: деонтическая (разрешение/запрет) vs эпистемическая (вероятностная оценка) и проследить их тренды.
- Выявить изменения синтаксических и коллокационных контекстов (negation, passive, infinitiv‑konstruktionen и т. п.).
2) Гипотезы (примерно 333555)
- H1: Частотность «dürfen» в новостных текстах менялась со временем (рост/падение) — альтернативная гипотеза против стационарности.
- H2: Доля эпистемических употреблений («dürfte» как эвфемизм/маркёр вероятности) увеличилась относительно деонтических употреблений.
- H3: Увеличение/снижение связей с отрицанием (nicht dürfen) связано с изменением жанровой структуры новостей.
- H4: После крупных социополитических событий (например, объединение Германии) и орфографической реформы будут наблюдаться кратковременные сдвиги в частотах/форме.
3) Данные
- Корпус: крупный диахронический новостной корпус немецкого языка (например DeReKo/Österreichisches Zeitungsarchiv/DWDS/сборы газет). При невозможности — собирать статьи из архивов ведущих газет.
- Покрытие: последние 505050 лет; разбить на интервалы (рекомендовано: когорты по 101010 лет или скользящее окно шириной 555 лет).
- Минимальный объём текста в каждой когорте: стремиться к сопоставимым размерам; если различия — нормализовать частоты (см. ниже).
4) Предобработка
- Токенизация, лемматизация, POS‑тэггинг, dependency‑парсинг (модальные глаголы — важно выделить формы: dürfen, darf, durften, gedurft, dürfte и пр.).
- Нормализация диакритики/ASCII‑вариантов.
- Размечать и фильтровать по жанрам/разделам (политика, экономика, культура) для контролируемых сравнений.
5) Разметка функций модальности
- Нужна золотая выборка ручной аннотации (~500500500100010001000 контекстов, стратифицированных по времени) для меток «деонтическая/эпистемическая/прочее».
- На основе аннотации обучить классификатор (например, SVM/RandomForest/Transformer) для массовой разметки.
- Оценка качества: precision/recall/F1 на валидационной выборке.
6) Анализы
a) Частотный анализ
- Считать абсолютные частоты и нормализованные частоты: fpmw=counttokens×106 \text{fpmw} = \frac{\text{count}}{\text{tokens}} \times 10^{6} fpmw=tokenscount ×106 (частота на миллион токенов).
- Построить временные ряды по когорте/годам; сглаживание LOESS.
b) Статистика изменений
- Тест стационарности/изменений: χ^2‑тест по таблице период × наличие (формы), статистика:
χ2=∑(O−E)2E. \chi^{2}=\sum \frac{(O-E)^{2}}{E}. χ2=E(OE)2 . - Логистическая регрессия/GLM для моделирования вероятности употребления «dürfen» (или эпистемического использования) как функции времени и контролей (жанр, длина статьи):
log⁡p1−p=β0+β1t+β2genre+… \log\frac{p}{1-p} = \beta_0 + \beta_1 t + \beta_2 \text{genre} + \ldots log1pp =β0 +β1 t+β2 genre+ где ttt — год (или порядковый номер когорты).
c) Сегментация и detection of change points
- Поиск точек структурного изменения (CUSUM, Bayesian change point).
d) Синтаксический/конструкционный анализ
- Разбивка по конструкциям: «dürfen + Infinitiv», «nicht dürfen», пассивные конструкции, перфект «hat gedurft».
- Частоты и пропорции конструкций по времени.
e) Коллокационный анализ и семантика
- Collocation (MI, t‑score, log‑likelihood) в окне ±5 токенов; ключевые леммы (например, „erlauben“, „verboten“, „dürfen“ рядом с названиями акторов: Regierung, Gericht).
- Кластеризация контекстов (word embeddings + кластеринг) для выявления семантических сдвигов.
f) Анализ по жанрам и источникам
- Сравнить тренды между редакциями/жанрами; контроль за изменениями в корпусе.
7) Валидация и надёжность
- Bootstrap‑оценки доверительных интервалов для fpmw.
- Проверка устойчивости результатов при разных размерах окон/бинах.
8) Визуализация и отчёт
- Графики: временные ряды (fpmw), доля эпистемических vs деонтических употреблений, heatmap по жанрам и десятилетиям, ключевые коллокации по периодам.
- Таблицы статистических моделей (коэффициенты, p‑values, CI).
9) Ожидаемые результаты и интерпретация
- Конкретные интерпретации зависят от данных; важно обсуждать возможные причины изменений (редакционная политика, жанровые сдвиги, социокультурные события) и ограничивать выводы корреляцией, а не причинностью.
10) Примерный план работ и ресурсы
- Сбор и предобработка: 111222 недели.
- Ручная аннотация и обучение классификатора: 222333 недели.
- Анализы и визуализации: 111222 недели.
- Отчёт: 111 неделя.
Замечания по практике: контролируйте размер корпусов по периодам, учитывайте влияние OCR‑ошибок в архивных текстах и возможные жанровые смещения; ручная проверка ключевых выводов обязательна.
17 Ноя в 07:28
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир