Эффективный алгоритм определения родного языка человека по письменной речи на английском языке

Руководитель от корпоративного партнера: Старичков Н.Ю., 1C
Руководитель от Университета ИТМО: Авксентьева Елена Юрьевна, Университет ИТМО

Открытых вакансий: 2

Подать заявку в этот проект

Краткая аннотация

Современные технологии обработки естественного языка позволяют решать очень сложные и разнообразные задачи. В частности, нейросетевые модели позволяют находить такие зависимости, которые человеку на первый взгляд совершенно не очевидны. В рамках данного проекта хочется проверить гипотезу, что по письменной речи на английском языке можно определить родной язык автора текста. Эта гипотеза основывается на предположениях о том, что в разговорной письменной речи в свободном формате авторы не слишком строго следят за соблюдением синтаксических и грамматических норм, а допускаемые ими ошибки (например, некорректная структура предложения или неправильный порядок слов) являются следствием их привычки построения предложений на родном языке. Те же соображения могут быть применены, например, к использованию предлогов. Соответственно, в рамках проекта предполагается создать нейросетевую модель, обученную на данных с англоязычных форумов (stackoverflow, reddit, …), позволяющую определять родной язык автора текста.

План действий

  1. Изучение когнитивно-функционального и системного подходов в лингвистике
  2. Построение языковых моделей
  3. Обработка текстов на естественном языке (NLP)
  4. Проектирование, разработка и тестирование алгоритма определения родного языка человека по письменной речи на английском языке

Решаемые технические проблемы

Определение родного языка человека по письменной речи на английском языке

Стек технологий

  1. User and Organizations
    • Инструменты гибкой разработки Agile, Scrum, Kanban
    • Тайм-менеджмент и планирование временем
  2. System Modeling
    • Системное моделирование с использованием языков UML/SysML
    • Анализ требований
  3. System Architecture and Infrastructure
    • Методы проектирование программных систем
    • Методы проектирования интеллектуальных систем
    • Организация параллельных и распределенных вычислений
    • Компьютерные сети
    • Виртуальные системы и сервисы
  4. Software Development
    • Программирование на языках C++, Java, Python
    • Использование стандартных библиотек С++, Boost, библиотек Python для обработки, анализа и визуализации данных
    • Web-разработка с использованием HTML, CSS, Java Script, PHP.
  5. Software Fundamentals
    • Алгоритмы и структуры данных
    • Операционные системы реального времени
  6. Hardware
    • Архитектура вычислительных систем

Предварительный перечень курсов

  1. Обработка и анализ данных https://openedu.ru/course/ITMOUniversity/BIGDATA2035/
  2. Прикладной искусственный интеллект https://openedu.ru/course/ITMOUniversity/APPARTINT2035/
  3. Методы машинного обучения https://openedu.ru/course/ITMOUniversity/INTROML/
  4. Интеллектуальный анализ данных https://openedu.ru/course/ITMOUniversity/MLDATAN/
  5. Анализ текстов https://openedu.ru/course/hse/TEXT/ (https://www.coursera.org/learn/text-mining?action=enroll)
  6. Распределенные база данных и знаний https://openedu.ru/course/spbu/DTBS/
  7. Мультиагентные системы http://window.edu.ru/resource/434/57434
  8. Системы поддержки принятия решений.
  9. Администрирование PostgreSQL 9.4. Базовый Курс https://www.youtube.com/watch?v=h_GdEaF1Ymc&list=PLaFqU3KCWw6KzGwUubZm-9-vKsi6vh5qC&index=2
  10. JSON and Natural Language Processing in PostgreSQL https://ru.coursera.org/learn/json-natural-language-processing-postgresql
  11. Специализация Learn SQL Basics for Data Science https://ru.coursera.org/specializations/learn-sql-basics-data-science
  12. Intermediate PostgreSQL https://ru.coursera.org/learn/intermediate-postgresql
  13. Библиотека программиста https://proglib.io/p/postgresql/
  14. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных http://www.machinelearning.ru/

Кем станет студент по завершению магистратуры

Программист-стажер, программист, разработчик систем машинного обучения и ИИ

Пререквизиты (входные требования)

Базовые программы курсов:

  • Высшая математика
  • Основы программирования
  • Алгоритмы и структуры данных
  • Программная инженерия
  • Архитектура программных систем
  • Базы данных