Критерии делю на две группы: формальные (форма, звук, синтаксис) и семантические (темы, образность, тон). Ниже — краткий перечень ключевых параметров и способы их измерения. Формальные параметры - Метрика и ритм: схема ударений/тактирования; измерять как распределение метрических паттернов, совпадение схем, доля строк, соответствующих определённому метру. - Рифмовая система: тип (смежная, перекрёстная, кольцевая), плотность рифм, фонетическая сочетаемость рифм (фонемная транскрипция). - Строфика и строение строки: типы строф, средняя длина строки (слова/слоги), вариативность длины. - Фонетические приёмы: аллитерация, ассонанс, консонанс — измерять частотами фонемных совпадений в окне. - Энжамбман и пунктуация: доля энжамбманов, распределение знаков препинания; влияет на читаемость и синтаксический ритм. - Лексическая статистика: тип-тукн соотношение, доля уникальных слов (гапаксы), частоты стоп-слов vs. контентных. - Синтаксис: средняя длина предложения, распределение POS-тегов, типичные синтаксические конструкции (деревья зависимостей). - Регистровые маркеры и орфография: архаизмы, диалектизмы, заимствования, графические особенности (капитализация, дефисы). Семантические параметры - Топические профили: распределение тем (LDA/CTM или эмбеддинги + кластеризация); сравнение через дистанции (например JSD). - Семантическая близость лексиконов: косинусная схожесть средних эмбеддингов по текстам. - Образность и тропы: частоты метафор, метонимий, символов; можно детектировать моделями или вручную кодировать. - Эмоционально-аффективные характеристики: значения валентности/возбуждения/контроля (VAD) по лексике; тональность (полярность), частота эмоциональных лексем. - Конкретность/абстрактность, образность (imageability): средние оценки по словарям. - Интертекстуальность и цитирование: совпадения цитат, отсылки к авторам/мифам, именованные сущности. - Персона и голос повествования: наличие лирического «я», модальность (повелительное/условное), степень объективности/субъективности. Метрики сравнения и агрегирование - Для векторных признаков: косинусная схожесть cos(u,v)=u⋅v∥u∥∥v∥\mathrm{cos}(u,v)=\dfrac{u\cdot v}{\|u\|\|v\|}cos(u,v)=∥u∥∥v∥u⋅v. - Для распределений (тем, POS и т. п.): Дженсен‑Шенноновская дивергенция JSD(P∣∣Q)=12KL(P∣∣M)+12KL(Q∣∣M)\mathrm{JSD}(P||Q)=\tfrac{1}{2}\mathrm{KL}(P||M)+\tfrac{1}{2}\mathrm{KL}(Q||M)JSD(P∣∣Q)=21KL(P∣∣M)+21KL(Q∣∣M), M=(P+Q)/2M=(P+Q)/2M=(P+Q)/2. - Для расстояния по скалярным признакам: нормировка и перевод в сходство si=1−dimaxdis_i=1-\dfrac{d_i}{\max d_i}si=1−maxdidi или z‑скоры. - Композитная оценка сходства: объединять нормированные признаки с весами wiw_iwi: Sim=∑iwisi,∑iwi=1\mathrm{Sim}=\sum_i w_i s_i,\quad \sum_i w_i=1Sim=∑iwisi,∑iwi=1. Рекомендованный рабочий пайплайн 1) Подготовка корпуса: лемматизация, фонетическая транскрипция (для рифмы), POS и парсинг. 2) Выделение признаков по списку выше (формальные и семантические). 3) Нормализация признаков и выбор метрик (косинус, JSD, евклид и т. д.). 4) Агрегация по смысловой задаче (авторская атрибуция, влияние, сходство тем) с настройкой весов wiw_iwi. 5) Валидация: кластеризация/ранжирование, статистические тесты значимости, экспертная оценка. Практические замечания - Выбор признаков и весов зависит от цели: для метрических сравнений сильнее весить метр/рифму; для тематического — топики и эмбеддинги. - Смешивать автоматические метрики с экспертной аннотацией для интерпретируемости. - Для поэзии важно учитывать многозначность и контекст — автоматические меры дают направление, но не заменяют качественный разбор. Если нужно, могу предложить пример набора признаков и формул агрегирования для конкретной задачи (например, авторская атрибуция или анализ влияния).
Формальные параметры
- Метрика и ритм: схема ударений/тактирования; измерять как распределение метрических паттернов, совпадение схем, доля строк, соответствующих определённому метру.
- Рифмовая система: тип (смежная, перекрёстная, кольцевая), плотность рифм, фонетическая сочетаемость рифм (фонемная транскрипция).
- Строфика и строение строки: типы строф, средняя длина строки (слова/слоги), вариативность длины.
- Фонетические приёмы: аллитерация, ассонанс, консонанс — измерять частотами фонемных совпадений в окне.
- Энжамбман и пунктуация: доля энжамбманов, распределение знаков препинания; влияет на читаемость и синтаксический ритм.
- Лексическая статистика: тип-тукн соотношение, доля уникальных слов (гапаксы), частоты стоп-слов vs. контентных.
- Синтаксис: средняя длина предложения, распределение POS-тегов, типичные синтаксические конструкции (деревья зависимостей).
- Регистровые маркеры и орфография: архаизмы, диалектизмы, заимствования, графические особенности (капитализация, дефисы).
Семантические параметры
- Топические профили: распределение тем (LDA/CTM или эмбеддинги + кластеризация); сравнение через дистанции (например JSD).
- Семантическая близость лексиконов: косинусная схожесть средних эмбеддингов по текстам.
- Образность и тропы: частоты метафор, метонимий, символов; можно детектировать моделями или вручную кодировать.
- Эмоционально-аффективные характеристики: значения валентности/возбуждения/контроля (VAD) по лексике; тональность (полярность), частота эмоциональных лексем.
- Конкретность/абстрактность, образность (imageability): средние оценки по словарям.
- Интертекстуальность и цитирование: совпадения цитат, отсылки к авторам/мифам, именованные сущности.
- Персона и голос повествования: наличие лирического «я», модальность (повелительное/условное), степень объективности/субъективности.
Метрики сравнения и агрегирование
- Для векторных признаков: косинусная схожесть cos(u,v)=u⋅v∥u∥∥v∥\mathrm{cos}(u,v)=\dfrac{u\cdot v}{\|u\|\|v\|}cos(u,v)=∥u∥∥v∥u⋅v .
- Для распределений (тем, POS и т. п.): Дженсен‑Шенноновская дивергенция JSD(P∣∣Q)=12KL(P∣∣M)+12KL(Q∣∣M)\mathrm{JSD}(P||Q)=\tfrac{1}{2}\mathrm{KL}(P||M)+\tfrac{1}{2}\mathrm{KL}(Q||M)JSD(P∣∣Q)=21 KL(P∣∣M)+21 KL(Q∣∣M), M=(P+Q)/2M=(P+Q)/2M=(P+Q)/2.
- Для расстояния по скалярным признакам: нормировка и перевод в сходство si=1−dimaxdis_i=1-\dfrac{d_i}{\max d_i}si =1−maxdi di или z‑скоры.
- Композитная оценка сходства: объединять нормированные признаки с весами wiw_iwi : Sim=∑iwisi,∑iwi=1\mathrm{Sim}=\sum_i w_i s_i,\quad \sum_i w_i=1Sim=∑i wi si ,∑i wi =1.
Рекомендованный рабочий пайплайн
1) Подготовка корпуса: лемматизация, фонетическая транскрипция (для рифмы), POS и парсинг.
2) Выделение признаков по списку выше (формальные и семантические).
3) Нормализация признаков и выбор метрик (косинус, JSD, евклид и т. д.).
4) Агрегация по смысловой задаче (авторская атрибуция, влияние, сходство тем) с настройкой весов wiw_iwi .
5) Валидация: кластеризация/ранжирование, статистические тесты значимости, экспертная оценка.
Практические замечания
- Выбор признаков и весов зависит от цели: для метрических сравнений сильнее весить метр/рифму; для тематического — топики и эмбеддинги.
- Смешивать автоматические метрики с экспертной аннотацией для интерпретируемости.
- Для поэзии важно учитывать многозначность и контекст — автоматические меры дают направление, но не заменяют качественный разбор.
Если нужно, могу предложить пример набора признаков и формул агрегирования для конкретной задачи (например, авторская атрибуция или анализ влияния).