Разработка системы автоматического машинного обучения без учителя


Руководитель от Университета ИТМО: Баймуратов Ильдар Раисович, Университет ИТМО

Открытых вакансий: 3

Подать заявку в этот проект

Аннотация

На сегодняшний день машинное обучение является одной из наиболее актуальных информационных технологий. Среди современных методов наибольшую практическую применимость показывает обучение с учителем. Однако оно имеет существенные ограничения: требуются большие выборки размеченных данных и специалист, проектирующий пайплайн обучения. Это препятствует повсеместному проникновению машинного обучения в индустрию и наступлению новой технологической эры.

Мы развиваем технологии, позволяющие преодолеть эти ограничения: обучение без учителя, автоматическое машинное обучение, метаобучение, общий искусственный интеллект и др. Наша миссия - создание интеллектуальных технологий нового поколения, способных решать на порядок более сложные задачи, чем позволяют возможности современного ИИ. Мы нацелены на подготовку исследователей, разрабатывающих инновационные технологии, и специалистов, которые обладают навыками, опережающими потребности рынка.

План действий

  1. Разработка библиотеки алгоритмов автоматической кластеризации:
    • анализ существующих алгоритмов кластеризации на предмет возможности автоматизации
    • разработка методов автоматической оптимизации гиперпараметров алгоритмов кластеризации
    • разработка методов выбора модели кластеризации
  2. Разработка системы комплексного метаобучения:
    • реализация модуля байесовской оптимизации
    • реализация модуля метаобучения
    • разработка априорных критериев для алгоритмов различного типа
    • реализация модуля априорных критериев
    • разработка алгоритма комплексного метаобучения
    • разработка алгоритма формирования онтологии на основе результатов метаобучения
  3. Разработка системы автоматического обучения онтологий:
    • реализация модуля построения таксономий на основе иерархических алгоритмов кластеризации
    • реализация модуля извлечения нетаксономических отношений на основе алгоритмов поиска ассоциативных правил
    • разработка методов комплексной оценки качества формируемых онтологий

Решаемые технические проблемы

  1. Разработка библиотеки алгоритмов автоматической кластеризации. При обучении с учителем оптимизация гиперпараметров и выбор модели осуществляется на основе точности. При обучении без учителя оценка точности недоступна, поэтому решение этих задач становится нетривиальным. Практически каждый алгоритм для оптимизации гиперпараметров использует собственную целевую функцию, а существование единого критерия выбора модели кластеризации и вовсе под вопросом.
  2. Разработка системы комплексного метаобучения. На сегодняшний день существует ряд методов автоматизации машинного обучения на основе априорной информации: байесовская оптимизация, метаобучение, априорные критерии. Релевантность их применения в конкретной задаче зависит от объема доступной априорной информации и допустимого количества итераций обучения. Однако комплексное применение этих методов с учетом их сильных и слабых сторон в рамках единой интеллектуальной системы до сих пор не рассматривалось. Также представляется перспективным представлять результаты метаобучения в стандартизированном формате, таком как OWL, для возможности интеграции знаний, полученных отдельными системами метаобучения.
  3. Разработка системы автоматического обучения онтологий. Одним из ограничений современных методов машинного обучения является неспособность к абстрактному представлению результатов обучения, что затрудняет их дальнейшую интерпретацию и экстраполяцию. Для преодоления этого ограничения предлагается автоматическим путем формировать онтологическое представление результатов обучения.

Стек технологий

  1. User and Organizations
    • инструменты гибкой разработки (Agile)
    • тайм-менеджмент и планирование временем
  2. System Modeling
    • системное моделирование (UML)
    • анализ требований
  3. Software Development
    • программирование на языке Python
    • использование библиотек машинного обучения (sklearn)
  4. Knowledge Engineering
    • редакторы онтологий (Protege)
    • использование библиотек для работы с онтологиями (owlready)

Кем станет студент по завершению магистратуры

В зависимости от выполняемых задач внутри проекта выпускник может стать:

  • исследователем
  • системным архитектором
  • ведущим инженером машинного обучения
  • ведущим инженером знаний

Пререквизиты (входные требования)

Для участия в проекте необходимы базовые знания по следующим направлениям:

  • дискретная математика
  • математическая статистика
  • теория алгоритмов
  • математическая оптимизация
  • математическая логика
  • машинное обучение
  • программирование на языке Python