Сформулируйте проект небольшого корпусного исследования: сравнить частотность употребления futur proche и futur simple в национальной газете и в блогах на французском; опишите дизайн, выбор корпуса, методы анализа и возможные гипотезы

17 Ноя в 10:12
1 +1
0
Ответы
1
Цель исследования: сравнить распространённость futur proche и futur simple в национальной газете и в блогах на французском, исследовать влияние жанра и времени.
Дизайн — обзорно-корпусный, квазиэкспериментальный:
- Корпусы: два подкорпуса сопоставимого объёма и периода
- Национальная газета (онлайн-архив крупной газеты): выборка статей за период, например 2005–2024\text{2005–2024}2005–2024.
- Блоги: публичные французоязычные блоги (персональные/тематические), те же годы.
- Целевой размер: по ≈500,000\approx 500{,}000500,000 слов в каждом подкорпусе (можно варьировать: ≈1,000,000\approx 1{,}000{,}0001,000,000 слов суммарно).
- Балансировка: контролировать год публикации и темы (политика, культура, спорт и т.д.), чтобы избежать тематического биаса.
Выделение объектов (аннотирование):
- Предварительная обработка: нормализация, токенизация, лемматизация и морфосинтаксическая разметка (например spaCy/fr, TreeTagger, Lefff+TxM).
- Правила поиска:
- futur proche: форма глагола aller\textit{aller}aller в настоящем (ле́мы: aller; формы: vais, va, allons,...\textit{vais},\, \textit{va},\, \textit{allons},...vais,va,allons,...) + инфинитив в окне ±3\pm 3±3 токена и/или отношения зависимостей (aux → verb, инфинитив как зависимое).
- futur simple: глагольные формы, помеченные как будущее простое по морфотегам, либо распознанные по суффиксам будущего (напр. −ai,−as,−a,−ons,−ez,−ont-ai,-as,-a,-ons,-ez,-ontai,as,a,ons,ez,ont) с учётом леммы и контекста.
- Фильтрация ложных срабатываний (контроль перифраз, модальных значений, идиом). Рекомендуется парсинг зависимостей, чтобы отсеять конструкции где «aller» не выступает вспомогательным.
Валидация разметки:
- Ручная разметка случайной выборки ∼500\sim 500500∼1000\sim 10001000 извлечённых экземпляров для оценки precision/recall.
- При необходимости корректировка правил и повторная валидация.
Метрики и статистический анализ:
- Основная метрика: частота употребления каждого типа нормализованная на миллион слов:
freq per M=counttokens×106. \text{freq per M} = \frac{\text{count}}{\text{tokens}} \times 10^{6}.
freq per M=tokenscount ×106.
- Сравнение долей: считать долю futur proche среди всех будущих выражений:
p=count(futur proche)count(futur proche)+count(futur simple). p = \frac{\text{count(futur proche)}}{\text{count(futur proche)}+\text{count(futur simple)}}.
p=count(futur proche)+count(futur simple)count(futur proche) .
- Тесты:
- Для двух подкорпусов — критерий хи‑квадрат или точный критерий Фишера для 2×2 таблицы (в зависимости от размеров): статистика χ2\chi^{2}χ2 или p-value от Фишера. Уровень значимости α=0.05\alpha = 0.05α=0.05.
- Логистическая регрессия (бинарный отклик: 1 = futur proche, 0 = futur simple) с факторами:
log⁡P(Y=1)1−P(Y=1)=β0+β1⋅Genre+β2⋅Year+β3⋅Topic+… \log\frac{P(Y=1)}{1-P(Y=1)} = \beta_0 + \beta_1\cdot\text{Genre} + \beta_2\cdot\text{Year} + \beta_3\cdot\text{Topic} + \ldots
log1P(Y=1)P(Y=1) =β0 +β1 Genre+β2 Year+β3 Topic+
— оценить влияние жанра (газета vs блог), года и темы; получить доверительные интервалы и p‑значения для коэффициентов.
- Дополнительно: последовательный анализ по годам (time series) для оценки трендов; можно вычислить корреляцию или тренд-коэффициент для ppp по годам.
Возможные гипотезы:
- H1 (основная): в блогах доля futur proche больше, чем в национальной газете (более разговорная, приближающаяся семантика).
- Нулевая гипотеза: разницы нет.
- H2: в газетах относительная доля futur simple выше (формальность/стилистическая норма).
- H3: во времени (за 2005–2024\text{2005–2024}2005–2024) наблюдается рост использования futur proche в интернете: коэффициент года в регрессии β2>0\beta_2>0β2 >0.
- H4: эффект жанра ослабляется/усиливается в зависимости от темы (напр., в спортивных репортажах futur proche может быть особенно част).
- H5: различия остаются значимыми после контроля за длиной предложений и частотой вспомогательных глаголов.
Ограничения и смягчение рисков:
- Блоги не однородны (формальные блоги vs личные дневники) — стратифицировать выборку.
- Автоматическая разметка даёт ошибки — ручная валидация и отчёт precision/recall обязательны.
- Репрезентативность: выбирать несколько газет и платформ блогов при возможности или явно оговаривать, что выбор ограничен.
Ожидаемые результаты и интерпретация:
- При подтверждении H1/H2 — аргументы о соотнесённости формы с регистром и устной/письменной ориентацией.
- При отсутствии различий — возможные объяснения: стандартизация письменного французского в сети, жанровая близость выбранных блогов к газетному стилю.
Краткий план работы и таймлайн:
1. Сбор корпуса и очистка (∼2\sim 22 4\,44 недели).
2. Автоматическая разметка и правки правил (∼2\sim 22 недели).
3. Валидация и корректировка (∼1\sim 11 2\,22 недели).
4. Анализ и тестирование гипотез (∼2\sim 22 недели).
5. Отчёт и интерпретация (∼1\sim 11 2\,22 недели).
Если нужно, могу предложить конкретные регулярные выражения/запросы или пример кода для извлечения конструкций.
17 Ноя в 11:36
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир