Разберите семантику и коллокационную сочетаемость фразы «heavy rain» vs «strong rain», объясните, почему одни прилагательные устойчивы в сочетаниях, а другие — нет, и как это выявить в корпусе
Кратко — семантика и устойчивость: - heavy rain — привычное комбинаторное сочетание: прилагательное heavy в контексте осадков conventionalized для передачи высокой интенсивности/количества осадков в единицу времени. Типовой масштаб: «много воды за короткий промежуток» (интенсивность, плотность осадков). - strong rain — редкое/ненормативное в англ. сочетание: прилагательное strong чаще маркирует силу/воздействие (wind, current, smell, argument). Для осадков носители английского предпочитают heavy, torrential, pouring; strong воспринимается как семантически менее подходящее и не окультурено как устойчивое сочетание. - Почему одни прилагательные устойчивы, а другие — нет: сочетание зависит от семантической совместимости (selectional preference), исторической конвенции (лексикализация) и частотной обычности. Если конкретное прилагательное часто употреблялось с данным существительным, сочетание стало фразеологически предпочтительным; если нет — даже симпатичная по смыслу комбинация будет редкой. Как выявить в корпусе — пошагово и с метриками: 1) Подготовка - Возьмите корпус (BNC, COCA, Google Books n-grams или свой корпус), выполните POS‑тегging/lemmatization. - Извлеките биграммы «Adj Noun» (с окном 1, правый/левый порядок в зависимости от языка). 2) Подсчёты (обозначения) - f12f_{12}f12 — число вхождений пары (heavy, rain). - f1f_1f1 — частота прилагательного (heavy). - f2f_2f2 — частота существительного (rain). - NNN — общее число токенов/биграмм (как вы считаете). 3) Оценки ассоциации и значимости - Ожидаемая частота при независимости: E12=f1f2N.
E_{12}=\frac{f_1 f_2}{N}. E12=Nf1f2.
- Условные вероятности: P(rain∣heavy)=f12f1,P(heavy∣rain)=f12f2.
P(\text{rain}\mid\text{heavy})=\frac{f_{12}}{f_1},\qquad P(\text{heavy}\mid\text{rain})=\frac{f_{12}}{f_2}. P(rain∣heavy)=f1f12,P(heavy∣rain)=f2f12.
Эти величины покажут «насколько вероятно, что после heavy идёт rain» и наоборот. - PMI (подходит для выявления информационно сильных, но редко встречающихся пар; склонен к редким событиям): PMI=log2f12 Nf1f2.
\mathrm{PMI}=\log_2\frac{f_{12}\,N}{f_1 f_2}. PMI=log2f1f2f12N. - t-score (устойчивее для высокочастотных пар): t=f12−E12f12.
t=\frac{f_{12}-E_{12}}{\sqrt{f_{12}}}. t=f12f12−E12. - Log-likelihood (G^2) для статистической значимости — строится по таблице 2×2 и вычисляется как G2=2∑cellsOlogOE,
G^2=2\sum_{cells} O\log\frac{O}{E}, G2=2cells∑OlogEO,
где суммирование по 4 ячейкам (наблюдаемые и ожидаемые частоты). - LogDice (популярная нормированная мера для коллокаций): LogDice=14+log22f12f1+f2.
\mathrm{LogDice}=14+\log_2\frac{2f_{12}}{f_1+f_2}. LogDice=14+log2f1+f22f12. Комментарий по выбору метрики: PMI выделит редкие, но «неожиданные» пары; t‑score и LLR лучше для устойчивых и частотных сочетаний; LogDice даёт удобный ранжирующий индекс, мало смещённый на редкие вхождения. 4) Практическая проверка различия heavy vs strong - Посчитайте f12f_{12}f12 для (heavy, rain) и (strong, rain), а также f1,f2,Nf_1,f_2,Nf1,f2,N. - Сравните P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rain∣heavy) и P(rain∣strong)P(\text{rain}\mid\text{strong})P(rain∣strong) — если первая существенно выше, heavy сильнее коллокируется с rain. - Сравните PMI / t / LLR / LogDice — ожидаемо: (heavy, rain) будет иметь высокую t/LLR/LogDice; (strong, rain) — низкие значения, возможно нерелевантные. - Посмотрите контекстные конкордансы: heavy rain часто в прогностических/описательных контекстах, strong rain либо отсутствует или появляется в нефлюидном/переводном регистре. 5) Дополнительные проверки - Дисперсия по документам (Juilland's D или нормированная мера): чтобы убедиться, что сочетание не сконцентрировано в одном источнике. - Проверка коллокаций с другими существительными: strong collocates с wind, current, tea — это покажет семантические поля прилагательного. - Векторные модели (word2vec/fastText): можно смотреть ближайших соседей для heavy и strong и типичные сочетания (средние контекстные вектора для «_ rain»). Интерпретация результатов - Если у (heavy, rain) высокая частота, высокая t/LLR и высокое P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rain∣heavy) — сочетание устойчиво и конвенционализовано. - Если у (strong, rain) низкие значения — сочетание либо неприемлемо для носителей, либо редкое/стилестически отмеченное (переводная конструкция, жаргон и т. п.). Резюме рекомендаций - Для практического обнаружения устойчивых сочетаний: извлечь adj–noun биграммы, посчитать f12,f1,f2,Nf_{12},f_1,f_2,Nf12,f1,f2,N, вычислить E12E_{12}E12, затем t‑score/LLR/LogDice + условные вероятности + конкордансы. - Интерпретировать с учётом семантики (совместимость смысла), истории употребления и регистра.
- heavy rain — привычное комбинаторное сочетание: прилагательное heavy в контексте осадков conventionalized для передачи высокой интенсивности/количества осадков в единицу времени. Типовой масштаб: «много воды за короткий промежуток» (интенсивность, плотность осадков).
- strong rain — редкое/ненормативное в англ. сочетание: прилагательное strong чаще маркирует силу/воздействие (wind, current, smell, argument). Для осадков носители английского предпочитают heavy, torrential, pouring; strong воспринимается как семантически менее подходящее и не окультурено как устойчивое сочетание.
- Почему одни прилагательные устойчивы, а другие — нет: сочетание зависит от семантической совместимости (selectional preference), исторической конвенции (лексикализация) и частотной обычности. Если конкретное прилагательное часто употреблялось с данным существительным, сочетание стало фразеологически предпочтительным; если нет — даже симпатичная по смыслу комбинация будет редкой.
Как выявить в корпусе — пошагово и с метриками:
1) Подготовка
- Возьмите корпус (BNC, COCA, Google Books n-grams или свой корпус), выполните POS‑тегging/lemmatization.
- Извлеките биграммы «Adj Noun» (с окном 1, правый/левый порядок в зависимости от языка).
2) Подсчёты (обозначения)
- f12f_{12}f12 — число вхождений пары (heavy, rain).
- f1f_1f1 — частота прилагательного (heavy).
- f2f_2f2 — частота существительного (rain).
- NNN — общее число токенов/биграмм (как вы считаете).
3) Оценки ассоциации и значимости
- Ожидаемая частота при независимости:
E12=f1f2N. E_{12}=\frac{f_1 f_2}{N}.
E12 =Nf1 f2 . - Условные вероятности:
P(rain∣heavy)=f12f1,P(heavy∣rain)=f12f2. P(\text{rain}\mid\text{heavy})=\frac{f_{12}}{f_1},\qquad
P(\text{heavy}\mid\text{rain})=\frac{f_{12}}{f_2}.
P(rain∣heavy)=f1 f12 ,P(heavy∣rain)=f2 f12 . Эти величины покажут «насколько вероятно, что после heavy идёт rain» и наоборот.
- PMI (подходит для выявления информационно сильных, но редко встречающихся пар; склонен к редким событиям):
PMI=log2f12 Nf1f2. \mathrm{PMI}=\log_2\frac{f_{12}\,N}{f_1 f_2}.
PMI=log2 f1 f2 f12 N .
- t-score (устойчивее для высокочастотных пар):
t=f12−E12f12. t=\frac{f_{12}-E_{12}}{\sqrt{f_{12}}}.
t=f12 f12 −E12 .
- Log-likelihood (G^2) для статистической значимости — строится по таблице 2×2 и вычисляется как
G2=2∑cellsOlogOE, G^2=2\sum_{cells} O\log\frac{O}{E},
G2=2cells∑ OlogEO , где суммирование по 4 ячейкам (наблюдаемые и ожидаемые частоты).
- LogDice (популярная нормированная мера для коллокаций):
LogDice=14+log22f12f1+f2. \mathrm{LogDice}=14+\log_2\frac{2f_{12}}{f_1+f_2}.
LogDice=14+log2 f1 +f2 2f12 .
Комментарий по выбору метрики: PMI выделит редкие, но «неожиданные» пары; t‑score и LLR лучше для устойчивых и частотных сочетаний; LogDice даёт удобный ранжирующий индекс, мало смещённый на редкие вхождения.
4) Практическая проверка различия heavy vs strong
- Посчитайте f12f_{12}f12 для (heavy, rain) и (strong, rain), а также f1,f2,Nf_1,f_2,Nf1 ,f2 ,N.
- Сравните P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rain∣heavy) и P(rain∣strong)P(\text{rain}\mid\text{strong})P(rain∣strong) — если первая существенно выше, heavy сильнее коллокируется с rain.
- Сравните PMI / t / LLR / LogDice — ожидаемо: (heavy, rain) будет иметь высокую t/LLR/LogDice; (strong, rain) — низкие значения, возможно нерелевантные.
- Посмотрите контекстные конкордансы: heavy rain часто в прогностических/описательных контекстах, strong rain либо отсутствует или появляется в нефлюидном/переводном регистре.
5) Дополнительные проверки
- Дисперсия по документам (Juilland's D или нормированная мера): чтобы убедиться, что сочетание не сконцентрировано в одном источнике.
- Проверка коллокаций с другими существительными: strong collocates с wind, current, tea — это покажет семантические поля прилагательного.
- Векторные модели (word2vec/fastText): можно смотреть ближайших соседей для heavy и strong и типичные сочетания (средние контекстные вектора для «_ rain»).
Интерпретация результатов
- Если у (heavy, rain) высокая частота, высокая t/LLR и высокое P(rain∣heavy)P(\text{rain}\mid\text{heavy})P(rain∣heavy) — сочетание устойчиво и конвенционализовано.
- Если у (strong, rain) низкие значения — сочетание либо неприемлемо для носителей, либо редкое/стилестически отмеченное (переводная конструкция, жаргон и т. п.).
Резюме рекомендаций
- Для практического обнаружения устойчивых сочетаний: извлечь adj–noun биграммы, посчитать f12,f1,f2,Nf_{12},f_1,f_2,Nf12 ,f1 ,f2 ,N, вычислить E12E_{12}E12 , затем t‑score/LLR/LogDice + условные вероятности + конкордансы.
- Интерпретировать с учётом семантики (совместимость смысла), истории употребления и регистра.