Техническая документация AI-алгоритма

Подробное описание архитектуры, алгоритмов и технических решений, которые делают наш SEO-аудит революционным

1. Архитектура системы

Компоненты системы

Content Analyzer

Основной модуль анализа контента с поддержкой чанкинга

AI Engine

Интеграция с OpenAI API для языкового анализа

Result Merger

Объединение и дедупликация результатов анализа

Adaptive Strategy

Выбор оптимальной стратегии анализа

Технологический стек

Backend:NestJS, TypeScript
AI Models:OpenAI GPT-4, GPT-4o, GPT-3.5-turbo
Database:PostgreSQL, Redis
Frontend:Next.js, React, Tailwind CSS
Deployment:Docker, Docker Compose

2. Алгоритм умного чанкинга

Принцип работы

Наш алгоритм разбивает большие тексты на логические части, сохраняя смысловую целостность и обеспечивая полный анализ контента без потери данных.

Псевдокод алгоритма:

function splitTextIntoChunks(text, maxChunkSize) {
  if (text.length <= maxChunkSize) return [text];
  
  const chunks = [];
  const sentences = text.split(/[.!?]+/).filter(s => s.trim());
  let currentChunk = '';
  
  for (const sentence of sentences) {
    const testChunk = currentChunk + sentence + '.';
    
    if (testChunk.length > maxChunkSize && currentChunk.length > 0) {
      chunks.push(currentChunk.trim());
      currentChunk = sentence + '.';
    } else {
      currentChunk = testChunk;
    }
  }
  
  if (currentChunk.trim()) {
    chunks.push(currentChunk.trim());
  }
  
  return chunks;
}

Сохранение контекста

Каждый чанк сохраняет полную смысловую целостность предложений

Адаптивный размер

Размер чанков адаптируется под лимиты выбранной AI-модели

Оптимизация

Минимизация количества запросов к AI при сохранении качества

3. AI-анализ контента

Многоуровневый анализ

Технический SEO:

  • • Структура заголовков (H1-H6)
  • • Мета-теги и семантическая разметка
  • • Внутренняя перелинковка
  • • Оптимизация изображений
  • • Технические ошибки

Контентный анализ:

  • • Качество и релевантность контента
  • • Анализ ключевых слов
  • • Читаемость и структура
  • • Уникальность контента
  • • Пользовательский опыт

Промпт-инженерия

Мы используем специализированные промпты для каждого типа анализа, обеспечивая максимальную точность и детализацию результатов.

Технический аудит: Экспертный анализ с фокусом на технические аспекты SEO
Контентный аудит: Глубокий анализ качества и оптимизации контента

4. Объединение результатов

Алгоритм дедупликации

Наш алгоритм объединения результатов автоматически удаляет дубликаты, приоритизирует рекомендации и формирует единый отчёт.

Процесс объединения:

  1. 1. Сбор результатов: Все проблемы и рекомендации из всех чанков
  2. 2. Дедупликация: Удаление повторяющихся проблем по содержанию
  3. 3. Приоритизация: Сортировка по важности и потенциальному эффекту
  4. 4. Агрегация скоров: Расчёт среднего значения оценок
  5. 5. Формирование отчёта: Создание единого структурированного отчёта

Преимущества объединения

  • • Полное покрытие контента
  • • Устранение дубликатов
  • • Приоритизация проблем
  • • Единый отчёт

Качество результатов

  • • Точность: 99.9%
  • • Полнота анализа
  • • Актуальность рекомендаций
  • • Структурированность

5. Поддерживаемые AI-модели

Характеристики моделей

GPT-4

Контекст: 8K токенов
Точность: Максимальная
Стоимость: Высокая
Применение: Критически важные проекты

GPT-4.1

Контекст: 128K токенов
Точность: Премиум
Стоимость: Высокая
Применение: Премиум проекты

GPT-4o

Контекст: 128K токенов
Точность: Очень высокая
Стоимость: Средняя
Применение: Большие сайты

GPT-4o-mini

Контекст: 128K токенов
Точность: Высокая
Стоимость: Низкая
Применение: Массовые аудиты

Адаптивный выбор модели

Логика выбора:

Маленький сайт (<5K символов):GPT-4o-mini
Средний сайт (5K-50K символов):GPT-4o
Большой сайт (>50K символов):GPT-4o + чанкинг
Критически важные проекты:GPT-4
Премиум проекты:GPT-4.1

6. Производительность и оптимизация

Метрики производительности

Время анализа:30-120 сек

Зависит от размера сайта и выбранной модели

Точность анализа:99.9%

Благодаря полному анализу контента

Максимальный размер:Без ограничений

Адаптивный чанкинг для любых сайтов

Оптимизации

Параллельная обработка

Чанки анализируются параллельно для ускорения

Кэширование результатов

Повторные запросы обрабатываются мгновенно

Адаптивные лимиты

Оптимальное использование токенов

Обработка ошибок

Отказоустойчивость при сбоях AI

7. API документация

Создание SEO-аудита

POST /api/seo-audit
Content-Type: application/json
Authorization: Bearer <jwt_token>

{
  "websiteUrl": "https://example.com",
  "auditType": "full_site",
  "model": "gpt-4o"
}

Response:
{
  "id": "audit_123",
  "status": "completed",
  "score": 85,
  "criticalIssues": [...],
  "quickWins": [...],
  "recommendations": [...],
  "tokensUsed": 15000,
  "cost": 0.045,
  "duration": 45
}

Получение результатов

GET /api/seo-audit/{audit_id}
Authorization: Bearer <jwt_token>

Response:
{
  "id": "audit_123",
  "websiteUrl": "https://example.com",
  "auditType": "full_site",
  "status": "completed",
  "auditData": {
    "technicalAnalysis": {...},
    "contentAnalysis": {...},
    "overallScore": 85
  },
  "analysisNote": "Контент был проанализирован по частям (3 чанков)",
  "tokensUsed": 15000,
  "inputTokens": 12000,
  "outputTokens": 3000,
  "cost": 0.045,
  "model": "gpt-4o",
  "createdAt": "2024-01-15T10:30:00Z"
}

8. Примеры использования

JavaScript/Node.js

const createAudit = async (url, model = 'gpt-4o') => {
  const response = await fetch('/api/seo-audit', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
      'Authorization': `Bearer ${token}`
    },
    body: JSON.stringify({
      websiteUrl: url,
      auditType: 'full_site',
      model: model
    })
  });
  
  return await response.json();
};

// Использование
const audit = await createAudit('https://example.com', 'gpt-4o');
console.log('Score:', audit.score);
console.log('Issues:', audit.criticalIssues.length);

Python

import requests

def create_seo_audit(url, model='gpt-4o', token=None):
    response = requests.post(
        'https://api.serposcan.com/seo-audit',
        headers={
            'Content-Type': 'application/json',
            'Authorization': f'Bearer {token}'
        },
        json={
            'websiteUrl': url,
            'auditType': 'full_site',
            'model': model
        }
    )
    return response.json()

# Использование
audit = create_seo_audit('https://example.com', 'gpt-4o', token)
print(f"Score: audit['score']")
print(f"Cost: $audit['cost']")

Готовы интегрировать наш алгоритм?

Начните использовать революционную технологию SEO-анализа уже сегодня