Gemini Embedding 2 — мультимодальный поиск по любым файлам

✍️ Эксперт ИИ Itibit 📅 2026-03-13 LLM ⏱️ 10 мин

Google Gemini Embedding 2 — революция в поиске по документам!

Теперь можно искать по картинкам в PDF, находить аудио по текстовому запросу и определять место в видео по голосу — всё через единую модель!


🚀 ЧТО ТАКОЕ GEMINI EMBEDDING 2?

Мультимодальная векторизация:

Gemini Embedding 2 — это не обычная embedding-модель. Она работает сразу с:

  • 📄 Текст (любой длины)
  • 🖼️ Картинки (JPEG, PNG)
  • 📹 Видео (до 2 минут)
  • 🎵 Аудио (любые форматы)
  • 📑 Документы (PDF, Word)

Главная фишка: Все типы файлов векторизуются в единое векторное пространство без предварительной обработки!


⚠️ КАК ЭТО РАБОТАЛО РАНЬШЕ:

Традиционный подход (сложный):

📄 Текстовый файл → Извлечь текст → Векторизовать → Сохранить
🖼️ Картинка → Описать через AI → Векторизовать описание → Сохранить
📑 PDF с картинками → Достать картинки → Описать → Векторизовать → Сохранить
🎵 Аудио → Транскрибировать → Векторизовать текст → Сохранить
📹 Видео → Извлечь кадры → Описать → Векторизовать → Сохранить

Проблемы:

  • ❌ Нужно 5+ разных моделей
  • ❌ Сложная поддержка
  • ❌ Потеря контекста
  • ❌ Дорогие пайплайны

КАК РАБОТАЕТ GEMINI EMBEDDING 2:

Новый подход (простой):

📄 Текст → Gemini Embedding 2 → Векторы
🖼️ Картинка → Gemini Embedding 2 → Векторы
📑 PDF → Gemini Embedding 2 → Векторы
🎵 Аудио → Gemini Embedding 2 → Векторы
📹 Видео → Gemini Embedding 2 → Векторы

Преимущества:

  • Одна модель для всех типов файлов
  • Единое векторное пространство
  • Без предварительной обработки
  • Простая поддержка

🧪 ПРАКТИЧЕСКИЕ ТЕСТЫ:

Тест 1: Поиск по тексту в PDF

Запрос: "подготовленные кладовые помещения"

Результат: ✅ Найдено в PDF #3


Тест 2: Поиск по картинке в PDF

Запрос: "где есть карта?"

Результат: ✅ Найдено в PDF #2 (карта нарисована, текстом не описана!)


Тест 3: Поиск по изображению

Запрос: "красивые здания"

Результат: ✅ Найдено на Картинке #1


Тест 4: Поиск по скриншоту

Запрос: 📸 Скриншот шины

Результат: ✅ Найдено в PDF #3 (там есть фото шин!)


Тест 5: Поиск по голосу

Запрос: 🎤 Голосовое: “А что там по набору с инструментами?”

Результат: ✅ Найдено в PDF #3 (коробка с инструментами на фото!)


🛠️ КАК НАСТРОИТЬ СВОЙ ПОИСК:

Шаг 1: Получить API ключ

  1. Перейти на aistudio.google.com
  2. Нажать “Get API Key”
  3. Создать ключ и скопировать

Шаг 2: Векторизация документов

Формат запроса:

POST https://generativelanguage.googleapis.com/v1beta/models/gemini-embedding-001:embedContent

Headers:
  x-goog-api-key: YOUR_API_KEY

Body:
{
  "model": "models/gemini-embedding-001",
  "content": {
    "parts": [{
      "inline_data": {
        "mime_type": "application/pdf",
        "data": "BASE64_ENCODED_FILE"
      }
    }]
  }
}

Для разных типов файлов:

Тип файлаMIME TypeПодготовка
Текстtext/plainКонвертировать в Base64
Картинкаimage/jpegКонвертировать в Base64
PDFapplication/pdfКонвертировать в Base64
Аудиоaudio/wavКонвертировать в Base64
Видеоvideo/mp4Конвертировать в Base64 (до 2 мин)

Шаг 3: Сохранение векторов

Пример для Supabase:

CREATE TABLE documents (
  id SERIAL PRIMARY KEY,
  filename TEXT,
  embedding VECTOR(768),
  created_at TIMESTAMP DEFAULT NOW()
);

Вставка векторов:

# После получения векторов от Google
embedding = response['embedding']['values']
cursor.execute(
    "INSERT INTO documents (filename, embedding) VALUES (%s, %s)",
    (filename, embedding)
)

Шаг 4: Поиск по векторам

SQL запрос для Similarity Search:

SELECT filename, 
       1 - (embedding <=> $1) AS similarity
FROM documents
ORDER BY embedding <=> $1
LIMIT 1;

Где $1 — вектор вашего запроса (тоже через Gemini Embedding 2).


🎯 ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ:

1. Умный поиск по документации

Загрузить: PDF с инструкциями
Поиск: "как настроить сервер?"
Результат: Страница 42 с скриншотом настроек

2. Поиск по видео-курсам

Загрузить: Видео-уроки (до 2 мин каждый)
Поиск: "объяснение циклов for"
Результат: Видео на 5:32 где объясняют циклы

3. Поиск по голосовым заметкам

Загрузить: Голосовые сообщения
Поиск: "идея для проекта"
Результат: Голосовое от 15 марта с идеей

4. Поиск по скриншотам

Загрузить: Скриншот ошибки
Поиск: 📸 Скриншот
Результат: Документ с решением этой ошибки

⚠️ ОГРАНИЧЕНИЯ:

ПараметрЗначение
Макс. размер видео2 минуты
Макс. размер файла20 MB
Размер вектора768 измерений
Поддерживаемые языки100+ (включая русский)

💰 ТАРИФЫ:

ОперацияЛимитЦена
Бесплатно1000 запросов/день$0
Платно>1000 запросов$0.02 / 1000 запросов

⚠️ ДОСТУП В РФ:

Проблема: Google AI Studio может быть недоступен напрямую

Решение: Используйте семейный облачный сервер для доступа

🔗 Получить ключ: razdvavpn.netlify.app


🔗 ССЫЛКИ:


💡 СОВЕТЫ:

  1. Конвертируйте всё в Base64 перед отправкой
  2. Видео режьте на части до 2 минут
  3. Сохраняйте векторы в Supabase или Pinecone
  4. Используйте Similarity Search для поиска
  5. Тестируйте на своих данных перед продакшеном

💡 Совет: Для доступа из России используйте семейный облачный сервер — надежно и недорого!


🎯 Вывод: Gemini Embedding 2 — это будущее мультимодального поиска. Одна модель вместо пяти, простое API и отличные результаты!