docs: добавлен текст документов для контрибьюетеров и плана развития

This commit is contained in:
ShishkaDanil
2026-01-03 20:16:15 +03:00
parent 8717e975b5
commit e7d18e6731
2 changed files with 316 additions and 0 deletions

206
docs/ROADMAP.md Normal file
View File

@@ -0,0 +1,206 @@
# План развития проекта (Roadmap)
Настоящий документ определяет направления развития программного изделия (ПИ) «Ъ» (компонент «Токенизатор») в рамках Проекта «Твердь».
---
### 1. Текущая стадия разработки
Проект находится на стадии разработки базовой архитектуры и структуры токенизатора. Реализованы:
* Структура проекта и модульная организация кода
* Определения типов токенов и грамматики языка
* Заглушки основных компонентов для последующей реализации
* Формальное описание грамматики языка Ъ+ в форме EBNF
---
### 2. Краткосрочные цели (Этап 1: Лексический анализ)
#### 2.1. Разработка фронтенд-части
**Срок:** Текущий этап разработки
**Задачи:**
- [ ] Реализация модуля синтаксического разбора UTF-8 в режиме `no_std`
- Полная реализация функции `decode_utf8` в модуле `utf8.rs`
- Реализация итератора `Utf8Chars` для последовательного декодирования
- Тестирование на различных UTF-8 последовательностях (включая кириллицу)
- [ ] Реализация обработки комментариев
- Полная реализация модуля `comment.rs` с поддержкой рекурсивной вложенности
- Обработка парных ограничителей `<[` и `]>`
- Тестирование вложенных комментариев различных уровней
- [ ] Реализация детерминированного конечного автомата (ДКА)
- Полная реализация переходов между состояниями в модуле `dfa.rs`
- Обработка всех операторов и конструкций языка
- Поддержка различения операторов записи (`<<`) и сдвига (`<<<`)
- [ ] Реализация основного токенизатора
- Полная реализация модуля `tokenizer.rs`
- Последовательная обработка входного потока данных
- Корректное отслеживание позиций токенов (строка, столбец)
- [ ] Реализация обработки литералов
- Поддержка десятичных, шестнадцатеричных и двоичных литералов
- Обработка типизированных литералов с кириллическими суффиксами (`б8`, `ц8`, `бр`, `цр`, `в32` и т.д.)
- Поддержка разделителя разрядов (`_`) в числовых литералах
- Обработка вещественных литералов
- [ ] Разработка тестов
- Интеграционные тесты для полного цикла токенизации
- Тесты для кириллических идентификаторов
- Тесты для латинских идентификаторов
- Тесты для всех операторов языка
- Тесты для вложенных комментариев
- Тесты для отслеживания позиций
**Критерии завершения:**
* Токенизатор успешно обрабатывает все конструкции языка Ъ+ согласно грамматике
* Все тесты проходят успешно
* Код соответствует требованиям `no_std` и безопасности
* Документация актуальна и полна
---
### 3. Среднесрочные цели (Этап 2: Промежуточное представление)
#### 3.1. Промежуточное представление и типизация
**Срок:** Следующий этап после завершения токенизатора
**Задачи:**
- [ ] Проектирование структур данных абстрактного синтаксического дерева (AST)
- Определение узлов для всех конструкций языка
- Поддержка префиксов идентификаторов (`@`, `:`, `?`)
- Представление блоков, условий, циклов, функций
- [ ] Реализация синтаксического анализатора (парсера)
- Парсинг на основе EBNF грамматики
- Построение AST из потока токенов
- Обработка ошибок парсинга с указанием позиций
- [ ] Реализация механизмов статического вывода типов
- Вывод типов для констант и литералов
- Проверка типов для выражений
- Валидация типизированных литералов
- [ ] Разработка системы ошибок
- Расширение модуля `error.rs` для синтаксических ошибок
- Детальные сообщения об ошибках с позициями
- Классификация ошибок по типам
**Критерии завершения:**
* Парсер успешно строит AST для всех корректных программ
* Вывод типов работает для всех допустимых конструкций
* Ошибки парсинга четко идентифицируются и документируются
---
### 4. Долгосрочные цели (Этап 3: Генерация кода)
#### 4.1. Генерация целевого кода
**Срок:** После завершения парсера и типизации
**Задачи:**
- [ ] Реализация модуля генерации LLVM IR
- Генерация промежуточного представления для высокопроизводительных систем
- Поддержка архитектур x86 и ARM
- Оптимизации для конвейерного программирования (`|>`)
- [ ] Разработка бэкенда для архитектуры «Эльбрус»
- Интеграция с компилятором LCC
- Использование промежуточного представления
- Поддержка предикатного исполнения (оператор `?`)
- [ ] Обеспечение отладочной информации
- Генерация отладочных символов в формате DWARF
- Сквозная передача позиций из исходного кода в машинный код
- Поддержка отладки для обоих бэкендов
- [ ] Оптимизации компилятора
- Оптимизация конвейерных операций
- Оптимизация предикатного исполнения для «Эльбрус»
- Статическая оптимизация выражений
**Критерии завершения:**
* Компилятор генерирует корректный код для обеих целевых архитектур
* Отладочная информация корректно передается через весь процесс компиляции
* Производительность сгенерированного кода соответствует требованиям
---
### 5. Дополнительные направления развития
#### 5.1. Расширение функциональности
* Поддержка дополнительных оптимизаций для конвейерного программирования
* Расширенные возможности статического анализа
* Интеграция с инструментами статического анализа безопасности
#### 5.2. Улучшение инструментария
* Разработка инструментов для разработчиков (форматировщик кода, линтер)
* Интеграция с системами непрерывной интеграции (CI/CD)
* Автоматизация тестирования и верификации
#### 5.3. Документация и обучение
* Расширенная документация для разработчиков
* Руководства по использованию языка Ъ+
* Примеры и учебные материалы
---
### 6. Приоритеты и ограничения
#### 6.1. Критические требования
* **Безопасность:** Все изменения должны сохранять соответствие требованиям безопасной разработки
* **Детерминизм:** Обеспечение детерминированного поведения на всех этапах компиляции
* **Сертификация:** Поддержание возможности сертификации на отсутствие НДВ
#### 6.2. Технические ограничения
* Использование только `no_std` окружения
* Запрет на внешние динамические библиотеки
* Поддержка архитектур «Эльбрус» и x86
#### 6.3. Приоритеты разработки
1. **Высокий приоритет:** Завершение токенизатора и базового парсера
2. **Средний приоритет:** Реализация типизации и базовой генерации кода
3. **Низкий приоритет:** Оптимизации и дополнительные инструменты
---
### 7. Метрики успеха
#### 7.1. Технические метрики
* Покрытие тестами: не менее 90% для критичных модулей
* Отсутствие предупреждений статического анализатора
* Соответствие требованиям `no_std` для всех модулей
#### 7.2. Качественные метрики
* Полное соответствие грамматике языка Ъ+
* Корректная обработка всех допустимых конструкций
* Четкие и информативные сообщения об ошибках
---
### Примечания
* План развития может корректироваться в зависимости от требований проекта и выявленных в процессе разработки особенностей.
* Все изменения в плане должны быть согласованы и задокументированы.
* Приоритеты могут пересматриваться в зависимости от критичности задач и требований безопасности.