Проектная магистратура Университета ИТМО

Разработка системы автоматического машинного обучения без учителя

Руководитель от Университета ИТМО: Баймуратов Ильдар Раисович, Университет ИТМО

Открытых вакансий: 3

Аннотация

На сегодняшний день машинное обучение является одной из наиболее актуальных информационных технологий. Среди современных методов наибольшую практическую применимость показывает обучение с учителем. Однако оно имеет существенные ограничения: требуются большие выборки размеченных данных и специалист, проектирующий пайплайн обучения. Это препятствует повсеместному проникновению машинного обучения в индустрию и наступлению новой технологической эры.

Мы развиваем технологии, позволяющие преодолеть эти ограничения: обучение без учителя, автоматическое машинное обучение, метаобучение, общий искусственный интеллект и др. Наша миссия - создание интеллектуальных технологий нового поколения, способных решать на порядок более сложные задачи, чем позволяют возможности современного ИИ. Мы нацелены на подготовку исследователей, разрабатывающих инновационные технологии, и специалистов, которые обладают навыками, опережающими потребности рынка.

План действий

Разработка библиотеки алгоритмов автоматической кластеризации:
- анализ существующих алгоритмов кластеризации на предмет возможности автоматизации
- разработка методов автоматической оптимизации гиперпараметров алгоритмов кластеризации
- разработка методов выбора модели кластеризации
Разработка системы комплексного метаобучения:
- реализация модуля байесовской оптимизации
- реализация модуля метаобучения
- разработка априорных критериев для алгоритмов различного типа
- реализация модуля априорных критериев
- разработка алгоритма комплексного метаобучения
- разработка алгоритма формирования онтологии на основе результатов метаобучения
Разработка системы автоматического обучения онтологий:
- реализация модуля построения таксономий на основе иерархических алгоритмов кластеризации
- реализация модуля извлечения нетаксономических отношений на основе алгоритмов поиска ассоциативных правил
- разработка методов комплексной оценки качества формируемых онтологий

Решаемые технические проблемы

Разработка библиотеки алгоритмов автоматической кластеризации. При обучении с учителем оптимизация гиперпараметров и выбор модели осуществляется на основе точности. При обучении без учителя оценка точности недоступна, поэтому решение этих задач становится нетривиальным. Практически каждый алгоритм для оптимизации гиперпараметров использует собственную целевую функцию, а существование единого критерия выбора модели кластеризации и вовсе под вопросом.
Разработка системы комплексного метаобучения. На сегодняшний день существует ряд методов автоматизации машинного обучения на основе априорной информации: байесовская оптимизация, метаобучение, априорные критерии. Релевантность их применения в конкретной задаче зависит от объема доступной априорной информации и допустимого количества итераций обучения. Однако комплексное применение этих методов с учетом их сильных и слабых сторон в рамках единой интеллектуальной системы до сих пор не рассматривалось. Также представляется перспективным представлять результаты метаобучения в стандартизированном формате, таком как OWL, для возможности интеграции знаний, полученных отдельными системами метаобучения.
Разработка системы автоматического обучения онтологий. Одним из ограничений современных методов машинного обучения является неспособность к абстрактному представлению результатов обучения, что затрудняет их дальнейшую интерпретацию и экстраполяцию. Для преодоления этого ограничения предлагается автоматическим путем формировать онтологическое представление результатов обучения.

Стек технологий

User and Organizations
- инструменты гибкой разработки (Agile)
- тайм-менеджмент и планирование временем
System Modeling
- системное моделирование (UML)
- анализ требований
Software Development
- программирование на языке Python
- использование библиотек машинного обучения (sklearn)
Knowledge Engineering
- редакторы онтологий (Protege)
- использование библиотек для работы с онтологиями (owlready)

Кем станет студент по завершению магистратуры

В зависимости от выполняемых задач внутри проекта выпускник может стать:

исследователем
системным архитектором
ведущим инженером машинного обучения
ведущим инженером знаний

Пререквизиты (входные требования)

Для участия в проекте необходимы базовые знания по следующим направлениям:

дискретная математика
математическая статистика
теория алгоритмов
математическая оптимизация
математическая логика
машинное обучение
программирование на языке Python