Разработка ML-модуля для обработки мультимодальных входов (видео, аудио, текст), построение системы для извлечения структурированной информации