Разберите семантику и коллокационную сочетаемость фразы «heavy rain» vs «strong rain», объясните, почему одни прилагательные устойчивы в сочетаниях, а другие — нет, и как это выявить в корпусе

24 Ноя в 09:41
3 +3
0
Ответы
1
Кратко — семантика и устойчивость:
- heavy rain — привычное комбинаторное сочетание: прилагательное heavy в контексте осадков conventionalized для передачи высокой интенсивности/количества осадков в единицу времени. Типовой масштаб: «много воды за короткий промежуток» (интенсивность, плотность осадков).
- strong rain — редкое/ненормативное в англ. сочетание: прилагательное strong чаще маркирует силу/воздействие (wind, current, smell, argument). Для осадков носители английского предпочитают heavy, torrential, pouring; strong воспринимается как семантически менее подходящее и не окультурено как устойчивое сочетание.
- Почему одни прилагательные устойчивы, а другие — нет: сочетание зависит от семантической совместимости (selectional preference), исторической конвенции (лексикализация) и частотной обычности. Если конкретное прилагательное часто употреблялось с данным существительным, сочетание стало фразеологически предпочтительным; если нет — даже симпатичная по смыслу комбинация будет редкой.
Как выявить в корпусе — пошагово и с метриками:
1) Подготовка
- Возьмите корпус (BNC, COCA, Google Books n-grams или свой корпус), выполните POS‑тегging/lemmatization.
- Извлеките биграммы «Adj Noun» (с окном 1, правый/левый порядок в зависимости от языка).
2) Подсчёты (обозначения)
- f12f_{12}f12 — число вхождений пары (heavy, rain).
- f1f_1f1 — частота прилагательного (heavy).
- f2f_2f2 — частота существительного (rain).
- NNN — общее число токенов/биграмм (как вы считаете).
3) Оценки ассоциации и значимости
- Ожидаемая частота при независимости:
E12=f1f2N. E_{12}=\frac{f_1 f_2}{N}.
E12 =Nf1 f2 .
- Условные вероятности:
P(rain∣heavy)=f12f1,P(heavy∣rain)=f12f2. P(\text{rain}\mid\text{heavy})=\frac{f_{12}}{f_1},\qquad
P(\text{heavy}\mid\text{rain})=\frac{f_{12}}{f_2}.
P(rainheavy)=f1 f12 ,P(heavyrain)=f2 f12 .
Эти величины покажут «насколько вероятно, что после heavy идёт rain» и наоборот.
- PMI (подходит для выявления информационно сильных, но редко встречающихся пар; склонен к редким событиям):
PMI=log⁡2f12 Nf1f2. \mathrm{PMI}=\log_2\frac{f_{12}\,N}{f_1 f_2}.
PMI=log2 f1 f2 f12 N .

- t-score (устойчивее для высокочастотных пар):
t=f12−E12f12. t=\frac{f_{12}-E_{12}}{\sqrt{f_{12}}}.
t=f12 f12 E12 .

- Log-likelihood (G^2) для статистической значимости — строится по таблице 2×2 и вычисляется как
G2=2∑cellsOlog⁡OE, G^2=2\sum_{cells} O\log\frac{O}{E},
G2=2cells OlogEO ,
где суммирование по 4 ячейкам (наблюдаемые и ожидаемые частоты).
- LogDice (популярная нормированная мера для коллокаций):
LogDice=14+log⁡22f12f1+f2. \mathrm{LogDice}=14+\log_2\frac{2f_{12}}{f_1+f_2}.
LogDice=14+log2 f1 +f2 2f12 .

Комментарий по выбору метрики: PMI выделит редкие, но «неожиданные» пары; t‑score и LLR лучше для устойчивых и частотных сочетаний; LogDice даёт удобный ранжирующий индекс, мало смещённый на редкие вхождения.
4) Практическая проверка различия heavy vs strong
- Посчитайте f12f_{12}f12 для (heavy, rain) и (strong, rain), а также f1,f2,Nf_1,f_2,Nf1 ,f2 ,N.
- Сравните P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rainheavy) и P(rain∣strong)P(\text{rain}\mid\text{strong})P(rainstrong) — если первая существенно выше, heavy сильнее коллокируется с rain.
- Сравните PMI / t / LLR / LogDice — ожидаемо: (heavy, rain) будет иметь высокую t/LLR/LogDice; (strong, rain) — низкие значения, возможно нерелевантные.
- Посмотрите контекстные конкордансы: heavy rain часто в прогностических/описательных контекстах, strong rain либо отсутствует или появляется в нефлюидном/переводном регистре.
5) Дополнительные проверки
- Дисперсия по документам (Juilland's D или нормированная мера): чтобы убедиться, что сочетание не сконцентрировано в одном источнике.
- Проверка коллокаций с другими существительными: strong collocates с wind, current, tea — это покажет семантические поля прилагательного.
- Векторные модели (word2vec/fastText): можно смотреть ближайших соседей для heavy и strong и типичные сочетания (средние контекстные вектора для «_ rain»).
Интерпретация результатов
- Если у (heavy, rain) высокая частота, высокая t/LLR и высокое P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rainheavy) — сочетание устойчиво и конвенционализовано.
- Если у (strong, rain) низкие значения — сочетание либо неприемлемо для носителей, либо редкое/стилестически отмеченное (переводная конструкция, жаргон и т. п.).
Резюме рекомендаций
- Для практического обнаружения устойчивых сочетаний: извлечь adj–noun биграммы, посчитать f12,f1,f2,Nf_{12},f_1,f_2,Nf12 ,f1 ,f2 ,N, вычислить E12E_{12}E12 , затем t‑score/LLR/LogDice + условные вероятности + конкордансы.
- Интерпретировать с учётом семантики (совместимость смысла), истории употребления и регистра.
24 Ноя в 11:00
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир