Эффективный алгоритм определения родного языка человека по письменной речи на английском языке
Руководитель от корпоративного партнера:
Старичков Н.Ю., 1C
Руководитель от Университета ИТМО: Авксентьева Елена Юрьевна,
Университет ИТМО
Открытых вакансий: 2
Краткая аннотация
Современные технологии обработки естественного языка позволяют решать очень сложные и разнообразные задачи. В частности, нейросетевые модели позволяют находить такие зависимости, которые человеку на первый взгляд совершенно не очевидны. В рамках данного проекта хочется проверить гипотезу, что по письменной речи на английском языке можно определить родной язык автора текста. Эта гипотеза основывается на предположениях о том, что в разговорной письменной речи в свободном формате авторы не слишком строго следят за соблюдением синтаксических и грамматических норм, а допускаемые ими ошибки (например, некорректная структура предложения или неправильный порядок слов) являются следствием их привычки построения предложений на родном языке. Те же соображения могут быть применены, например, к использованию предлогов. Соответственно, в рамках проекта предполагается создать нейросетевую модель, обученную на данных с англоязычных форумов (stackoverflow, reddit, …), позволяющую определять родной язык автора текста.
План действий
- Изучение когнитивно-функционального и системного подходов в лингвистике
- Построение языковых моделей
- Обработка текстов на естественном языке (NLP)
- Проектирование, разработка и тестирование алгоритма определения родного языка человека по письменной речи на английском языке
Решаемые технические проблемы
Определение родного языка человека по письменной речи на английском языке
Стек технологий
- User and Organizations
- Инструменты гибкой разработки Agile, Scrum, Kanban
- Тайм-менеджмент и планирование временем
- System Modeling
- Системное моделирование с использованием языков UML/SysML
- Анализ требований
- System Architecture and Infrastructure
- Методы проектирование программных систем
- Методы проектирования интеллектуальных систем
- Организация параллельных и распределенных вычислений
- Компьютерные сети
- Виртуальные системы и сервисы
- Software Development
- Программирование на языках C++, Java, Python
- Использование стандартных библиотек С++, Boost, библиотек Python для обработки, анализа и визуализации данных
- Web-разработка с использованием HTML, CSS, Java Script, PHP.
- Software Fundamentals
- Алгоритмы и структуры данных
- Операционные системы реального времени
- Hardware
- Архитектура вычислительных систем
Предварительный перечень курсов
- Обработка и анализ данных https://openedu.ru/course/ITMOUniversity/BIGDATA2035/
- Прикладной искусственный интеллект https://openedu.ru/course/ITMOUniversity/APPARTINT2035/
- Методы машинного обучения https://openedu.ru/course/ITMOUniversity/INTROML/
- Интеллектуальный анализ данных https://openedu.ru/course/ITMOUniversity/MLDATAN/
- Анализ текстов https://openedu.ru/course/hse/TEXT/ (https://www.coursera.org/learn/text-mining?action=enroll)
- Распределенные база данных и знаний https://openedu.ru/course/spbu/DTBS/
- Мультиагентные системы http://window.edu.ru/resource/434/57434
- Системы поддержки принятия решений.
- Администрирование PostgreSQL 9.4. Базовый Курс https://www.youtube.com/watch?v=h_GdEaF1Ymc&list=PLaFqU3KCWw6KzGwUubZm-9-vKsi6vh5qC&index=2
- JSON and Natural Language Processing in PostgreSQL https://ru.coursera.org/learn/json-natural-language-processing-postgresql
- Специализация Learn SQL Basics for Data Science https://ru.coursera.org/specializations/learn-sql-basics-data-science
- Intermediate PostgreSQL https://ru.coursera.org/learn/intermediate-postgresql
- Библиотека программиста https://proglib.io/p/postgresql/
- Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных http://www.machinelearning.ru/
Кем станет студент по завершению магистратуры
Программист-стажер, программист, разработчик систем машинного обучения и ИИ
Пререквизиты (входные требования)
Базовые программы курсов:
- Высшая математика
- Основы программирования
- Алгоритмы и структуры данных
- Программная инженерия
- Архитектура программных систем
- Базы данных