0%
Just started
0%

CLIP-CVR-оценка: находим слабые фото

Описание:

RetailPhoto Team
16 января 2026 г.
4 min read
← Вернуться в блог

CLIP-CVR-оценка: находим слабые фото

RetailPhoto Team4 min read

Описание:

**Код \+ пошаговый гайд**

**Что экономим:**

**Бюджет:** 0 ₽ (нужен только Python)

**Пример:**

## **Почему это важно?**

Визуал сильно влияет на конверсию (CVR) товара. Обычно, чтобы понять, какое фото «продаёт» лучше, делают A/B-тест: показывают разные обложки и измеряют продажи. Но A/B-тесты для каждого товара — дорого и долго. Вместо этого можно применить нейросеть **CLIP** от OpenAI, которая сопоставляет изображения и текст. С помощью CLIP можно быстро оценить, насколько каждое фото соответствует описанию товара и привлечёт покупателя. Выявив самые **слабые фото**, вы сможете оперативно их заменить или улучшить **без** запуска тестов на маркетплейсе.

## **Шаги внедрения CLIP-оценки изображений**

1. **Подготовьте данные товара.** Соберите информацию о товаре: заголовок, описание и все фотографии (например, студийные снимки платья, фото деталей, на модели и т.д.). Для примера возьмём продавца одежды: у него 5 фото платья, и нужно понять, какое из них хуже всего передаёт суть товара.

2. **Настройте среду Python.** Установите Python и необходимые библиотеки. Например, через pip установите библиотеку для CLIP: `pip install git+https://github.com/openai/CLIP.git` (репозиторий OpenAI CLIP). Также понадобятся библиотеки `torch` (PyTorch) и `Pillow` для обработки изображений.

**Загрузите модель CLIP.** В коде Python импортируйте CLIP и загрузите предобученную модель. Например:

python
КопироватьРедактировать
`import torch`
`import clip`
`model, preprocess = clip.load("ViT-B/32") # загрузка модели`
`model.eval()`

3. Эта модель преобразует изображения и тексты в векторное пространство одинаковой размерности.

**Подготовьте описание товара.** Возьмите основной тезис о товаре. Например: *«Женское платье, красное, вечернее, с пайетками»*. Текст нужно подать модели как то, что она должна «искать» на фото. Токенизируйте текст для CLIP:

python
КопироватьРедактировать
`text = clip.tokenize([product_description]).cuda()`
`text_features = model.encode_text(text)`
`text_features /= text_features.norm(dim=-1, keepdim=True)`

4. **Примечание:** Если у вас нет GPU, уберите `.cuda()` или используйте CPU-версию модели – это будет медленнее, но тоже работает.

**Проанализируйте каждое фото.** Загрузите по очереди изображения товара и пропустите через модель:

python
КопироватьРедактировать
`from PIL import Image`
`image = preprocess(Image.open("photo1.png")).unsqueeze(0).cuda()`
`image_features = model.encode_image(image)`
`image_features /= image_features.norm(dim=-1, keepdim=True)`
`similarity = (image_features @ text_features.T).item()`
`print(similarity)`

5. Этот код выведет числовой **показатель схожести** между фото и описанием товара. Повторите для всех изображений (`photo2.png`, `photo3.png`, ...).

6. **Сравните показатели.** Чем **ниже** коэффициент схожести, тем **хуже фото соответствует товару** с точки зрения модели. Например, если у фото №1 similarity \= 0.95, а у фото №5 — 0.78, то пятое фото явно слабее: возможно, на нём товар показан хуже или не так понятен.

7. **Выявите слабые снимки.** Определите 1–2 фото с наименьшими значениями similarity. Именно они, скорее всего, **снижают конверсию**. В нашем примере модель подсветила фото, где платье снято со спины на тёмном фоне, как слабое. Это совпало с ощущениями: покупатели могли не понимать с этого ракурса, как выглядит фасад.

8. **Замените или улучшите слабые фото.** Сделайте новую съёмку или обработайте проблемные изображения. В примере с платьем стоит переснять фото со спины на более светлом фоне или вовсе заменить его другим ракурсом с лицевой стороны.

9. **Перепроверьте с CLIP.** Пропустите обновлённые фото через ту же процедуру, чтобы убедиться, что **схожесть возросла**. Если новое изображение получило similarity скажем 0.94 вместо 0.78 – прогресс на лицо: фото стало более релевантным товару.

10. **Отслеживайте влияние на CVR.** После замены слабых фото наблюдайте за конверсией карточки на маркетплейсе. Как правило, улучшение главного изображения или галереи сразу отражается на росте продаж. Вы заменили фото без A/B-теста, но если нейросеть выбрала правильно, вы увидите прирост CVR (например, \+5–10%).

11. **Масштабируйте на весь ассортимент.** Повторите анализ CLIP для других товаров. Например, селлер спортивного инвентаря может проверить фото кроссовок, гантелей, мячей и быстро найти, какие изображения «не заходят» покупателям. Это особенно полезно, если у вас сотни SKU: **экономия колоссальная**, ведь вручную такие инсайты не получить.

12. **Учитесь у нейросети.** Обратите внимание, какие именно фото CLIP считает сильными. Часто это изображения, где товар чётко виден, на правильном фоне и соответствует описанию. Берите эти находки на вооружение при следующих фотосъёмках. Со временем вы начнёте **снимать сразу лучше**, экономя на переделках и повышая ROI от фотоконтента.

В результате, используя CLIP-оценку, вы получаете **быструю диагностику** качества своего визуала. Вы тратите пару часов на настройку скрипта и анализ, зато экономите дни и недели, которые ушли бы на серию A/B-тестов. Улучшив фотографии по подсказкам нейросети, можно увеличить продажи без дополнительных вложений. *Минимум затрат — максимум пользы\!* 🚀

Reading Progress

Progress45%

Estimated 3 minutes left

Quick Actions