Методологическое задание продвинутого уровня: корпусный график частотности shall/ will за последние 200 лет показывает резкое снижение shall — разработайте гипотезы, объясняющие эту динамику, и опишите исследовательский план (корпусы, методы, переменные), чтобы эмпирически проверить каждую гипотезу.
Коротко: наблюдаемый резкий спад shall за последние ~200 лет может объясняться совокупностью семантических, прагматических, социолингвистических и корпусных (метрологических) факторов. Ниже — набор гипотез с логикой и четким планом эмпирической проверки для каждой (корпусы, методы, переменные, предсказания, возможные помехи и способы их учёта).
1) Гипотеза 1 — замещение формы will/going to в функции выражения будущего
Идея: shall исторически часто использовалось с I/we как нейтральная форма будущего; со временем will (и going to) вытеснили shall в значении простого будущего.Предсказание: доля shall существенно уменьшается в контекстах, где функция — простое предсказание/нейтральное будущее; одновременно увеличивается доля will/going to в тех же контекстах.Корпусы: COHA (Corpus of Historical American English: 1810–2009), Hansard (британские парламентские дебаты 1800–2000), British Newspaper Archive, Google Books Ngrams (с осторожностью), BNC/COCA для современности.Методы: Автоматический поиск токенов shall/will/’ll/going to, нормализация по млн слов.Выбор репрезентативной случайной выборки контекстов по десятилетиям (например, 200–500 конкордов на десятилетие).Аннотация функции (future-prediction vs volition vs deontic/obligation vs formulaic) вручную (разметка семантической функции); вычисление пропорций.Моделирование: смешанные логистические регрессии (зависимая переменная — использование shall vs will, фиксированные эффекты — год, функция, лицо/число субъекта, регистр; случайные перехваты по тексту/автору).Переменные: десятилетие/год, функция (категории), лицо субъекта (I/we vs others), регистр (публицистика/парламент/фикшн/разговор), география (Brit vs US).Результат, подтверждающий гипотезу: значимое отрицательное влияние времени в моделях для функции «нейтральное будущее», параллельный рост will/going to в тех же контекстах.
2) Гипотеза 2 — функциональная специализация: shall сохраняется в нормативно/юридически формальном дискурсе, исчезает в разговорном
Идея: вместо общего употребления shall выжили узкие формальные функции (юридические формулы, официальные инструкции, предложения "shall we?"), а в обычной речи оно вышло из употребления.Предсказание: в корпусах юридических/административных текстов частота shall остаётся высокой или падает меньше, чем в газетах/разговорной речи; в устной речи — почти исчезает.Корпусы: корпусы юридических текстов (парламентские протоколы Hansard, корпуса законодательных актов UK Statute Law Database, ECHR judgments), Spoken BNC / COCA (разговорная часть), архвы радиопередач.Методы: Разделение по регистрам; нормализованные частоты shall на млн слов в каждом регистре по времени.Сравнение трендов (time-series) между регистрами; тест на разницу наклонов (slope) тренда.Контекстный анализ формул (shall be liable, shall have the right) — частотный список коллокаций.Переменные: регистр, год, коллокации (последующие леммы), тип текста.Подтверждение: нерезкое падение в юридическом регистре и резкий в разговорном; сохранение shall в фиксированных юридических конструкциях.
3) Гипотеза 3 — влияние американского английского (диффузия норм will)
Идея: в пределах англоязычного мира американская норма использования will (почти полное отсутствие shall) усилила влияние на глобальную письменность/печать, особенно через массовую литературу и СМИ.Предсказание: ранний и глубокий спад shall в американских корпусах по сравнению с британскими; после массовой экспансии печати/медиа — синхронизация спадов.Корпусы: COHA и COCA (американские исторические и современные), British Newspaper Archive, Hansard/EEBO для Британии.Методы: Сравнение временных рядов для US vs UK (нормализованные частоты); тесты на разницу точек начала спада и скорости снижения.Анализ регистрации и типа текста (американский всплеск в популярной прессе/фантастике).Переменные: страна, год, регистр.Подтверждение: значимое различие в хронологии уменьшения: в США снижение начинается раньше/быстрее.
4) Гипотеза 4 — прескриптивные нормы и школа
Идея: грамматические руководства и школьное образование могли подталкивать к использованию will вместо shall (или вообще к избеганию shall как "устаревшего/стилизованного").Предсказание: в публикациях грамматик и учебников с 19–20в. — явная рекомендация избегать shall; параллельно — снижение в текстах, ориентированных на широкую публику/образование.Корпусы/источники: корпус книг (Google Books), специализированные коллекции учебников и грамматик (Google Books, HathiTrust), исторические учебники.Методы: Поиск упоминаний правил: "shall vs will", "use shall" и т. п.; контент-анализ инструкции в грамматиках.Корреляция появления и распространения таких руководств с изменениями в корпусных данных.Переменные: наличие/распространённость правил в грамматиках (квалитативная), год.Подтверждение: временная корреляция между ростом упоминаний/советов и падением частоты shall в массовых корпусах.
5) Гипотеза 5 — изменение прагматической интерпретации (shall → более маргинальная модальность)
Идея: семантика shall могла претерпеть сдвиг (например, укрепление значения обязательства/правила), т.е. оно потеряло широкий «нейтральный» смысл будущего и стало маркером обязательности или формальности.Предсказание: относительная пропорция deontic/obligation uses среди всех shall-token’ов увеличивается со временем; же for neutral/future — уменьшается.Методы: Семантическая аннотация выборки токенов по типам модальности (deontic, epistemic, future, volitional).Вычисление изменения долей типов во времени; статистический тест трендов.Переменные: семантическая категория, лицо/число, год, регистр.
Идея: наблюдаемый спад может частично быть артефактом корпуса (например, Google Books содержит больше американских или научных текстов в поздних периодах; OCR ошибки различаются по форме shall vs shal).Предсказание: тренды в разных корпусах (COHA vs Google Ngrams vs Hansard) различаются; корректировка жанровой композиции уменьшит эффект.Методы: Сравнение нескольких независимых корпусов (COHA, Hansard, BNC, газетные архивы).Контроль по жанру — вычисление частот в стабильных жанрах (парламентские дебаты, судебные решения), где состав текстов менее изменился.Проверка OCR-артефактов: частоты варианта shal (одно l) и иных ошибок.Подтверждение: если спад наблюдается во всех независимых и хорошо оцифрованных корпусах — маловероятно, что это артефакт.
Детализованный план исследования (пошагово)
A. Выбор корпусов
Исторические (1800-е — начало XX в.): COHA (1810–2009) — главный источник для английского в США; Hansard (британские дебаты) — для официальной/парламентской речи; British Newspaper Archive / 19th-century newspapers — для массовых медиа.Современные: COCA (Corpus of Contemporary American English), BNC/Spoken BNC (британский разговорный) для 1990s–2000s.Книги: Google Books Ngram и HathiTrust/Internet Archive для анализа грамматик/учебников; аккуратно — учитывать метаданные/женровую композицию.Юридические документы: базы законодательных текстов UK/US (statutes, judicial opinions) для изучения формального регистра.Разговорные корпуса: Spoken BNC, ARCHER (архив устных историй), если доступны исторические устные данные (в поздний период).
B. Предварительная обработка
Лемматизация/тэггинг/парсинг (с учетом историчности текстов — возможно, специальная нормализация); отметить ограничения POS-тэггеров на старых текстах.Нормализация частот: токены на миллион слов; или вероятности shall|will conditional on person (P(shall|shall+will) для I/we).Выделение мета-переменных: год, жанр/регистр, страна/автор, тип текста.
C. Аннотации и семантическая категоризация
Сэмплирование: для каждого десятилетия/региона/регистрa — случайная выборка конкордов (минимум 200–500 на ячейку) для ручной разметки.Категории: future-prediction, volition/intent, deontic/obligation, hortative/offers (shall we?), formulaic/legal, epistemic, other.Инструкции разметки и расчет межаннотатного согласия (Cohen’s kappa).Возможно автоматическое расширение меток с помощью классификатора (SVM/Random Forest) при достаточном тренировочном наборе, затем ручная валидация.
D. Количественный анализ
Описательная статистика: тренды частот по регистрам и странам.Моделирование: Смешанные логит-модели (lme4/stanarm): зависимая переменная — выбор shall (1) vs other (0) в парадигме модального; факторы: год (или decade, лин/криволин), регистр, страна, лицо субъекта, семантическая функция, взаимодействия год×регистр, год×страна; случайные перехваты по тексту/автору.Change-point analysis / piecewise regression: найти момент(ы) резкого изменения наклона.Time-series decomposition и автокорреляция для больших агрегированных рядов.Коллокационный анализ: специфические лексические окружения shall (последующие леммы: be, have, liable, subject) — PMI/LLR.Перекрестная проверка: сравнение различных корпусов для оценки корпуса-эффекта.
E. Тестирование каждой гипотезы — какие результаты подтверждают/опровергают
H1 (замещение will/going to): подтвердится, если снижение shall в функциях future коррелирует с ростом will/going to в тех же функциях и моделирование показывает увеличение вероятности will со временем при контроле по регистру/лицу.H2 (регистр): подтвердится, если спад в разговорных и газетных регистрах значительно больше, чем в юридических/официальных текстах.H3 (американизация): подтвердится, если в американских данных спад начинается раньше/быстрее и затем «перетекает» в британские тексты, либо если крупные американские жанры демонстрируют более резкое снижение.H4 (прескриптивные нормы): подтвердится, если временная кривая распространения рекомендаций в грамматиках предшествует или синхронна падению в массовых корпусах.H5 (семантическая специализация): подтвердится, если доля deontic/legal значений среди shall увеличивается.H6 (карпус-артефакт): если независимые, хорошо оцифрованные корпуса демонстрируют разные тренды, или если поправка на жанровую композицию существенно меняет картину — тогда часть эффекта может быть артефактом.
F. Дополнительные методы (качественные)
Дискурс-анализ фиксированных фраз и примеров (юридические формулы, «shall we», «you shall not») для иллюстрации семантической специализации.Исторический обзор грамматик и руководств (контент-анализ) — для H4.Социолингвистические опросы/экспериментальные методы в современности: восприятие и продукция shall vs will в речи нативов (при необходимости).
G. Потенциальные проблемы и как их минимизировать
OCR/метаданные: использовать несколько независимых корпусов; чистые парланы (Hansard) как контроль.Изменения жанровой композиции с течением времени: анализ по жанрам; стандартизированные корпуса (COHA) имеют сбалансированные подкорпусы — использовать их.Разметка функций — субъективность: четкое кодирование, тренировочные примеры, расчёт межаннотатного согласия.Автоматические инструменты менее точны на исторических текстах — вручную валидация выборок.
H. Инструменты и ресурсы
Инструменты: Python (NLTK/spacy), R (tidyverse, lme4, brms), CQPweb/Sketch Engine для поиска и частот; AntConc для конкордов.Хранилища: COHA, COCA, BNC, Hansard, Google Books Ngrams (для агрегатов), HathiTrust, British Newspaper Archive.Документация процедуры и скрипты для воспроизводимости (репозиторий GitHub).
Итоговые выводы и ожидаемый вклад
Комбинация количественного и качественного анализа покажет, какие факторы (семантические, регистровые, географические, прескриптивные) дают наибольший вклад в падение shall.Ожидаемый сценарий: основной вклад даёт семантическое и регистровое сужение — shall теряет нейтральную функцию будущего и становится маркером формальности/юридичности; американская норма will ускорила процесс; часть резкости может объясняться сменой жанров в печати, но артефактом объяснить весь спад вряд ли удастся.
Если нужно, могу:
Предложить детальный кодовый лист для аннотации семантических функций.Подготовить примерный R/Python-скрипт для извлечения и нормализации частот по COHA/COCA/Hansard.Составить план выборок (сколько конкордов на клетку, стратификация по регистрам) и шаблон разметки для аннотаторов.
Коротко: наблюдаемый резкий спад shall за последние ~200 лет может объясняться совокупностью семантических, прагматических, социолингвистических и корпусных (метрологических) факторов. Ниже — набор гипотез с логикой и четким планом эмпирической проверки для каждой (корпусы, методы, переменные, предсказания, возможные помехи и способы их учёта).
1) Гипотеза 1 — замещение формы will/going to в функции выражения будущего
Идея: shall исторически часто использовалось с I/we как нейтральная форма будущего; со временем will (и going to) вытеснили shall в значении простого будущего.Предсказание: доля shall существенно уменьшается в контекстах, где функция — простое предсказание/нейтральное будущее; одновременно увеличивается доля will/going to в тех же контекстах.Корпусы: COHA (Corpus of Historical American English: 1810–2009), Hansard (британские парламентские дебаты 1800–2000), British Newspaper Archive, Google Books Ngrams (с осторожностью), BNC/COCA для современности.Методы:Автоматический поиск токенов shall/will/’ll/going to, нормализация по млн слов.Выбор репрезентативной случайной выборки контекстов по десятилетиям (например, 200–500 конкордов на десятилетие).Аннотация функции (future-prediction vs volition vs deontic/obligation vs formulaic) вручную (разметка семантической функции); вычисление пропорций.Моделирование: смешанные логистические регрессии (зависимая переменная — использование shall vs will, фиксированные эффекты — год, функция, лицо/число субъекта, регистр; случайные перехваты по тексту/автору).Переменные: десятилетие/год, функция (категории), лицо субъекта (I/we vs others), регистр (публицистика/парламент/фикшн/разговор), география (Brit vs US).Результат, подтверждающий гипотезу: значимое отрицательное влияние времени в моделях для функции «нейтральное будущее», параллельный рост will/going to в тех же контекстах.
2) Гипотеза 2 — функциональная специализация: shall сохраняется в нормативно/юридически формальном дискурсе, исчезает в разговорном
Идея: вместо общего употребления shall выжили узкие формальные функции (юридические формулы, официальные инструкции, предложения "shall we?"), а в обычной речи оно вышло из употребления.Предсказание: в корпусах юридических/административных текстов частота shall остаётся высокой или падает меньше, чем в газетах/разговорной речи; в устной речи — почти исчезает.Корпусы: корпусы юридических текстов (парламентские протоколы Hansard, корпуса законодательных актов UK Statute Law Database, ECHR judgments), Spoken BNC / COCA (разговорная часть), архвы радиопередач.Методы:Разделение по регистрам; нормализованные частоты shall на млн слов в каждом регистре по времени.Сравнение трендов (time-series) между регистрами; тест на разницу наклонов (slope) тренда.Контекстный анализ формул (shall be liable, shall have the right) — частотный список коллокаций.Переменные: регистр, год, коллокации (последующие леммы), тип текста.Подтверждение: нерезкое падение в юридическом регистре и резкий в разговорном; сохранение shall в фиксированных юридических конструкциях.
3) Гипотеза 3 — влияние американского английского (диффузия норм will)
Идея: в пределах англоязычного мира американская норма использования will (почти полное отсутствие shall) усилила влияние на глобальную письменность/печать, особенно через массовую литературу и СМИ.Предсказание: ранний и глубокий спад shall в американских корпусах по сравнению с британскими; после массовой экспансии печати/медиа — синхронизация спадов.Корпусы: COHA и COCA (американские исторические и современные), British Newspaper Archive, Hansard/EEBO для Британии.Методы:Сравнение временных рядов для US vs UK (нормализованные частоты); тесты на разницу точек начала спада и скорости снижения.Анализ регистрации и типа текста (американский всплеск в популярной прессе/фантастике).Переменные: страна, год, регистр.Подтверждение: значимое различие в хронологии уменьшения: в США снижение начинается раньше/быстрее.
4) Гипотеза 4 — прескриптивные нормы и школа
Идея: грамматические руководства и школьное образование могли подталкивать к использованию will вместо shall (или вообще к избеганию shall как "устаревшего/стилизованного").Предсказание: в публикациях грамматик и учебников с 19–20в. — явная рекомендация избегать shall; параллельно — снижение в текстах, ориентированных на широкую публику/образование.Корпусы/источники: корпус книг (Google Books), специализированные коллекции учебников и грамматик (Google Books, HathiTrust), исторические учебники.Методы:Поиск упоминаний правил: "shall vs will", "use shall" и т. п.; контент-анализ инструкции в грамматиках.Корреляция появления и распространения таких руководств с изменениями в корпусных данных.Переменные: наличие/распространённость правил в грамматиках (квалитативная), год.Подтверждение: временная корреляция между ростом упоминаний/советов и падением частоты shall в массовых корпусах.
5) Гипотеза 5 — изменение прагматической интерпретации (shall → более маргинальная модальность)
Идея: семантика shall могла претерпеть сдвиг (например, укрепление значения обязательства/правила), т.е. оно потеряло широкий «нейтральный» смысл будущего и стало маркером обязательности или формальности.Предсказание: относительная пропорция deontic/obligation uses среди всех shall-token’ов увеличивается со временем; же for neutral/future — уменьшается.Методы:Семантическая аннотация выборки токенов по типам модальности (deontic, epistemic, future, volitional).Вычисление изменения долей типов во времени; статистический тест трендов.Переменные: семантическая категория, лицо/число, год, регистр.
6) Гипотеза 6 — корпусная/метрологическая помеха (OCR, жанровая композиция Google Books)
Идея: наблюдаемый спад может частично быть артефактом корпуса (например, Google Books содержит больше американских или научных текстов в поздних периодах; OCR ошибки различаются по форме shall vs shal).Предсказание: тренды в разных корпусах (COHA vs Google Ngrams vs Hansard) различаются; корректировка жанровой композиции уменьшит эффект.Методы:Сравнение нескольких независимых корпусов (COHA, Hansard, BNC, газетные архивы).Контроль по жанру — вычисление частот в стабильных жанрах (парламентские дебаты, судебные решения), где состав текстов менее изменился.Проверка OCR-артефактов: частоты варианта shal (одно l) и иных ошибок.Подтверждение: если спад наблюдается во всех независимых и хорошо оцифрованных корпусах — маловероятно, что это артефакт.
Детализованный план исследования (пошагово)
A. Выбор корпусов
Исторические (1800-е — начало XX в.): COHA (1810–2009) — главный источник для английского в США; Hansard (британские дебаты) — для официальной/парламентской речи; British Newspaper Archive / 19th-century newspapers — для массовых медиа.Современные: COCA (Corpus of Contemporary American English), BNC/Spoken BNC (британский разговорный) для 1990s–2000s.Книги: Google Books Ngram и HathiTrust/Internet Archive для анализа грамматик/учебников; аккуратно — учитывать метаданные/женровую композицию.Юридические документы: базы законодательных текстов UK/US (statutes, judicial opinions) для изучения формального регистра.Разговорные корпуса: Spoken BNC, ARCHER (архив устных историй), если доступны исторические устные данные (в поздний период).B. Предварительная обработка
Лемматизация/тэггинг/парсинг (с учетом историчности текстов — возможно, специальная нормализация); отметить ограничения POS-тэггеров на старых текстах.Нормализация частот: токены на миллион слов; или вероятности shall|will conditional on person (P(shall|shall+will) для I/we).Выделение мета-переменных: год, жанр/регистр, страна/автор, тип текста.C. Аннотации и семантическая категоризация
Сэмплирование: для каждого десятилетия/региона/регистрa — случайная выборка конкордов (минимум 200–500 на ячейку) для ручной разметки.Категории: future-prediction, volition/intent, deontic/obligation, hortative/offers (shall we?), formulaic/legal, epistemic, other.Инструкции разметки и расчет межаннотатного согласия (Cohen’s kappa).Возможно автоматическое расширение меток с помощью классификатора (SVM/Random Forest) при достаточном тренировочном наборе, затем ручная валидация.D. Количественный анализ
Описательная статистика: тренды частот по регистрам и странам.Моделирование:Смешанные логит-модели (lme4/stanarm): зависимая переменная — выбор shall (1) vs other (0) в парадигме модального; факторы: год (или decade, лин/криволин), регистр, страна, лицо субъекта, семантическая функция, взаимодействия год×регистр, год×страна; случайные перехваты по тексту/автору.Change-point analysis / piecewise regression: найти момент(ы) резкого изменения наклона.Time-series decomposition и автокорреляция для больших агрегированных рядов.Коллокационный анализ: специфические лексические окружения shall (последующие леммы: be, have, liable, subject) — PMI/LLR.Перекрестная проверка: сравнение различных корпусов для оценки корпуса-эффекта.
E. Тестирование каждой гипотезы — какие результаты подтверждают/опровергают
H1 (замещение will/going to): подтвердится, если снижение shall в функциях future коррелирует с ростом will/going to в тех же функциях и моделирование показывает увеличение вероятности will со временем при контроле по регистру/лицу.H2 (регистр): подтвердится, если спад в разговорных и газетных регистрах значительно больше, чем в юридических/официальных текстах.H3 (американизация): подтвердится, если в американских данных спад начинается раньше/быстрее и затем «перетекает» в британские тексты, либо если крупные американские жанры демонстрируют более резкое снижение.H4 (прескриптивные нормы): подтвердится, если временная кривая распространения рекомендаций в грамматиках предшествует или синхронна падению в массовых корпусах.H5 (семантическая специализация): подтвердится, если доля deontic/legal значений среди shall увеличивается.H6 (карпус-артефакт): если независимые, хорошо оцифрованные корпуса демонстрируют разные тренды, или если поправка на жанровую композицию существенно меняет картину — тогда часть эффекта может быть артефактом.F. Дополнительные методы (качественные)
Дискурс-анализ фиксированных фраз и примеров (юридические формулы, «shall we», «you shall not») для иллюстрации семантической специализации.Исторический обзор грамматик и руководств (контент-анализ) — для H4.Социолингвистические опросы/экспериментальные методы в современности: восприятие и продукция shall vs will в речи нативов (при необходимости).G. Потенциальные проблемы и как их минимизировать
OCR/метаданные: использовать несколько независимых корпусов; чистые парланы (Hansard) как контроль.Изменения жанровой композиции с течением времени: анализ по жанрам; стандартизированные корпуса (COHA) имеют сбалансированные подкорпусы — использовать их.Разметка функций — субъективность: четкое кодирование, тренировочные примеры, расчёт межаннотатного согласия.Автоматические инструменты менее точны на исторических текстах — вручную валидация выборок.H. Инструменты и ресурсы
Инструменты: Python (NLTK/spacy), R (tidyverse, lme4, brms), CQPweb/Sketch Engine для поиска и частот; AntConc для конкордов.Хранилища: COHA, COCA, BNC, Hansard, Google Books Ngrams (для агрегатов), HathiTrust, British Newspaper Archive.Документация процедуры и скрипты для воспроизводимости (репозиторий GitHub).Итоговые выводы и ожидаемый вклад
Комбинация количественного и качественного анализа покажет, какие факторы (семантические, регистровые, географические, прескриптивные) дают наибольший вклад в падение shall.Ожидаемый сценарий: основной вклад даёт семантическое и регистровое сужение — shall теряет нейтральную функцию будущего и становится маркером формальности/юридичности; американская норма will ускорила процесс; часть резкости может объясняться сменой жанров в печати, но артефактом объяснить весь спад вряд ли удастся.Если нужно, могу:
Предложить детальный кодовый лист для аннотации семантических функций.Подготовить примерный R/Python-скрипт для извлечения и нормализации частот по COHA/COCA/Hansard.Составить план выборок (сколько конкордов на клетку, стратификация по регистрам) и шаблон разметки для аннотаторов.