Методологическое задание продвинутого уровня: корпусный график частотности shall/ will за последние 200 лет показывает резкое снижение shall — разработайте гипотезы, объясняющие эту динамику, и опишите исследовательский план (корпусы, методы, переменные), чтобы эмпирически проверить каждую гипотезу.
Предыдущий
вопрос Следующий
вопрос

Question

Методологическое задание продвинутого уровня: корпусный график частотности shall/ will за последние 200 лет показывает резкое снижение shall — разработайте гипотезы, объясняющие эту динамику, и опишите исследовательский план (корпусы, методы, переменные), чтобы эмпирически проверить каждую гипотезу.
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по английскому языку

Методологическое зад...

eva

29 Сен в 10:43

16 +1

0

Helper · Answer 1

Коротко: наблюдаемый резкий спад shall за последние ~200 лет может объясняться совокупностью семантических, прагматических, социолингвистических и корпусных (метрологических) факторов. Ниже — набор гипотез с логикой и четким планом эмпирической проверки для каждой (корпусы, методы, переменные, предсказания, возможные помехи и способы их учёта).

1) Гипотеза 1 — замещение формы will/going to в функции выражения будущего

Идея: shall исторически часто использовалось с I/we как нейтральная форма будущего; со временем will (и going to) вытеснили shall в значении простого будущего.Предсказание: доля shall существенно уменьшается в контекстах, где функция — простое предсказание/нейтральное будущее; одновременно увеличивается доля will/going to в тех же контекстах.Корпусы: COHA (Corpus of Historical American English: 1810–2009), Hansard (британские парламентские дебаты 1800–2000), British Newspaper Archive, Google Books Ngrams (с осторожностью), BNC/COCA для современности.Методы:
Автоматический поиск токенов shall/will/’ll/going to, нормализация по млн слов.Выбор репрезентативной случайной выборки контекстов по десятилетиям (например, 200–500 конкордов на десятилетие).Аннотация функции (future-prediction vs volition vs deontic/obligation vs formulaic) вручную (разметка семантической функции); вычисление пропорций.Моделирование: смешанные логистические регрессии (зависимая переменная — использование shall vs will, фиксированные эффекты — год, функция, лицо/число субъекта, регистр; случайные перехваты по тексту/автору).Переменные: десятилетие/год, функция (категории), лицо субъекта (I/we vs others), регистр (публицистика/парламент/фикшн/разговор), география (Brit vs US).Результат, подтверждающий гипотезу: значимое отрицательное влияние времени в моделях для функции «нейтральное будущее», параллельный рост will/going to в тех же контекстах.

2) Гипотеза 2 — функциональная специализация: shall сохраняется в нормативно/юридически формальном дискурсе, исчезает в разговорном

Идея: вместо общего употребления shall выжили узкие формальные функции (юридические формулы, официальные инструкции, предложения "shall we?"), а в обычной речи оно вышло из употребления.Предсказание: в корпусах юридических/административных текстов частота shall остаётся высокой или падает меньше, чем в газетах/разговорной речи; в устной речи — почти исчезает.Корпусы: корпусы юридических текстов (парламентские протоколы Hansard, корпуса законодательных актов UK Statute Law Database, ECHR judgments), Spoken BNC / COCA (разговорная часть), архвы радиопередач.Методы:
Разделение по регистрам; нормализованные частоты shall на млн слов в каждом регистре по времени.Сравнение трендов (time-series) между регистрами; тест на разницу наклонов (slope) тренда.Контекстный анализ формул (shall be liable, shall have the right) — частотный список коллокаций.Переменные: регистр, год, коллокации (последующие леммы), тип текста.Подтверждение: нерезкое падение в юридическом регистре и резкий в разговорном; сохранение shall в фиксированных юридических конструкциях.

3) Гипотеза 3 — влияние американского английского (диффузия норм will)

Идея: в пределах англоязычного мира американская норма использования will (почти полное отсутствие shall) усилила влияние на глобальную письменность/печать, особенно через массовую литературу и СМИ.Предсказание: ранний и глубокий спад shall в американских корпусах по сравнению с британскими; после массовой экспансии печати/медиа — синхронизация спадов.Корпусы: COHA и COCA (американские исторические и современные), British Newspaper Archive, Hansard/EEBO для Британии.Методы:
Сравнение временных рядов для US vs UK (нормализованные частоты); тесты на разницу точек начала спада и скорости снижения.Анализ регистрации и типа текста (американский всплеск в популярной прессе/фантастике).Переменные: страна, год, регистр.Подтверждение: значимое различие в хронологии уменьшения: в США снижение начинается раньше/быстрее.

4) Гипотеза 4 — прескриптивные нормы и школа

Идея: грамматические руководства и школьное образование могли подталкивать к использованию will вместо shall (или вообще к избеганию shall как "устаревшего/стилизованного").Предсказание: в публикациях грамматик и учебников с 19–20в. — явная рекомендация избегать shall; параллельно — снижение в текстах, ориентированных на широкую публику/образование.Корпусы/источники: корпус книг (Google Books), специализированные коллекции учебников и грамматик (Google Books, HathiTrust), исторические учебники.Методы:
Поиск упоминаний правил: "shall vs will", "use shall" и т. п.; контент-анализ инструкции в грамматиках.Корреляция появления и распространения таких руководств с изменениями в корпусных данных.Переменные: наличие/распространённость правил в грамматиках (квалитативная), год.Подтверждение: временная корреляция между ростом упоминаний/советов и падением частоты shall в массовых корпусах.

5) Гипотеза 5 — изменение прагматической интерпретации (shall → более маргинальная модальность)

Идея: семантика shall могла претерпеть сдвиг (например, укрепление значения обязательства/правила), т.е. оно потеряло широкий «нейтральный» смысл будущего и стало маркером обязательности или формальности.Предсказание: относительная пропорция deontic/obligation uses среди всех shall-token’ов увеличивается со временем; же for neutral/future — уменьшается.Методы:
Семантическая аннотация выборки токенов по типам модальности (deontic, epistemic, future, volitional).Вычисление изменения долей типов во времени; статистический тест трендов.Переменные: семантическая категория, лицо/число, год, регистр.

6) Гипотеза 6 — корпусная/метрологическая помеха (OCR, жанровая композиция Google Books)

Идея: наблюдаемый спад может частично быть артефактом корпуса (например, Google Books содержит больше американских или научных текстов в поздних периодах; OCR ошибки различаются по форме shall vs shal).Предсказание: тренды в разных корпусах (COHA vs Google Ngrams vs Hansard) различаются; корректировка жанровой композиции уменьшит эффект.Методы:
Сравнение нескольких независимых корпусов (COHA, Hansard, BNC, газетные архивы).Контроль по жанру — вычисление частот в стабильных жанрах (парламентские дебаты, судебные решения), где состав текстов менее изменился.Проверка OCR-артефактов: частоты варианта shal (одно l) и иных ошибок.Подтверждение: если спад наблюдается во всех независимых и хорошо оцифрованных корпусах — маловероятно, что это артефакт.

Детализованный план исследования (пошагово)

A. Выбор корпусов

Исторические (1800-е — начало XX в.): COHA (1810–2009) — главный источник для английского в США; Hansard (британские дебаты) — для официальной/парламентской речи; British Newspaper Archive / 19th-century newspapers — для массовых медиа.Современные: COCA (Corpus of Contemporary American English), BNC/Spoken BNC (британский разговорный) для 1990s–2000s.Книги: Google Books Ngram и HathiTrust/Internet Archive для анализа грамматик/учебников; аккуратно — учитывать метаданные/женровую композицию.Юридические документы: базы законодательных текстов UK/US (statutes, judicial opinions) для изучения формального регистра.Разговорные корпуса: Spoken BNC, ARCHER (архив устных историй), если доступны исторические устные данные (в поздний период).

B. Предварительная обработка

Лемматизация/тэггинг/парсинг (с учетом историчности текстов — возможно, специальная нормализация); отметить ограничения POS-тэггеров на старых текстах.Нормализация частот: токены на миллион слов; или вероятности shall|will conditional on person (P(shall|shall+will) для I/we).Выделение мета-переменных: год, жанр/регистр, страна/автор, тип текста.

C. Аннотации и семантическая категоризация

Сэмплирование: для каждого десятилетия/региона/регистрa — случайная выборка конкордов (минимум 200–500 на ячейку) для ручной разметки.Категории: future-prediction, volition/intent, deontic/obligation, hortative/offers (shall we?), formulaic/legal, epistemic, other.Инструкции разметки и расчет межаннотатного согласия (Cohen’s kappa).Возможно автоматическое расширение меток с помощью классификатора (SVM/Random Forest) при достаточном тренировочном наборе, затем ручная валидация.

D. Количественный анализ

Описательная статистика: тренды частот по регистрам и странам.Моделирование:
Смешанные логит-модели (lme4/stanarm): зависимая переменная — выбор shall (1) vs other (0) в парадигме модального; факторы: год (или decade, лин/криволин), регистр, страна, лицо субъекта, семантическая функция, взаимодействия год×регистр, год×страна; случайные перехваты по тексту/автору.Change-point analysis / piecewise regression: найти момент(ы) резкого изменения наклона.Time-series decomposition и автокорреляция для больших агрегированных рядов.Коллокационный анализ: специфические лексические окружения shall (последующие леммы: be, have, liable, subject) — PMI/LLR.Перекрестная проверка: сравнение различных корпусов для оценки корпуса-эффекта.

E. Тестирование каждой гипотезы — какие результаты подтверждают/опровергают

H1 (замещение will/going to): подтвердится, если снижение shall в функциях future коррелирует с ростом will/going to в тех же функциях и моделирование показывает увеличение вероятности will со временем при контроле по регистру/лицу.H2 (регистр): подтвердится, если спад в разговорных и газетных регистрах значительно больше, чем в юридических/официальных текстах.H3 (американизация): подтвердится, если в американских данных спад начинается раньше/быстрее и затем «перетекает» в британские тексты, либо если крупные американские жанры демонстрируют более резкое снижение.H4 (прескриптивные нормы): подтвердится, если временная кривая распространения рекомендаций в грамматиках предшествует или синхронна падению в массовых корпусах.H5 (семантическая специализация): подтвердится, если доля deontic/legal значений среди shall увеличивается.H6 (карпус-артефакт): если независимые, хорошо оцифрованные корпуса демонстрируют разные тренды, или если поправка на жанровую композицию существенно меняет картину — тогда часть эффекта может быть артефактом.

F. Дополнительные методы (качественные)

Дискурс-анализ фиксированных фраз и примеров (юридические формулы, «shall we», «you shall not») для иллюстрации семантической специализации.Исторический обзор грамматик и руководств (контент-анализ) — для H4.Социолингвистические опросы/экспериментальные методы в современности: восприятие и продукция shall vs will в речи нативов (при необходимости).

G. Потенциальные проблемы и как их минимизировать

OCR/метаданные: использовать несколько независимых корпусов; чистые парланы (Hansard) как контроль.Изменения жанровой композиции с течением времени: анализ по жанрам; стандартизированные корпуса (COHA) имеют сбалансированные подкорпусы — использовать их.Разметка функций — субъективность: четкое кодирование, тренировочные примеры, расчёт межаннотатного согласия.Автоматические инструменты менее точны на исторических текстах — вручную валидация выборок.

H. Инструменты и ресурсы

Инструменты: Python (NLTK/spacy), R (tidyverse, lme4, brms), CQPweb/Sketch Engine для поиска и частот; AntConc для конкордов.Хранилища: COHA, COCA, BNC, Hansard, Google Books Ngrams (для агрегатов), HathiTrust, British Newspaper Archive.Документация процедуры и скрипты для воспроизводимости (репозиторий GitHub).

Итоговые выводы и ожидаемый вклад

Комбинация количественного и качественного анализа покажет, какие факторы (семантические, регистровые, географические, прескриптивные) дают наибольший вклад в падение shall.Ожидаемый сценарий: основной вклад даёт семантическое и регистровое сужение — shall теряет нейтральную функцию будущего и становится маркером формальности/юридичности; американская норма will ускорила процесс; часть резкости может объясняться сменой жанров в печати, но артефактом объяснить весь спад вряд ли удастся.

Если нужно, могу:

Предложить детальный кодовый лист для аннотации семантических функций.Подготовить примерный R/Python-скрипт для извлечения и нормализации частот по COHA/COCA/Hansard.Составить план выборок (сколько конкордов на клетку, стратификация по регистрам) и шаблон разметки для аннотаторов.

Другие вопросы eva

Другие вопросы
eva