Нухов Руслан #254

Dobtyk · 2025-11-03T12:41:44Z

Идея такая:

Переводим текст в токены через парсер. Токен имеет тип тега и текст, из этого состояния мы можем его перевести в любую спецификацию (Теоретически).
Далее переводим токены в HTML.

This reverts commit ce5fffa.

FnaTikJK · 2025-11-04T06:25:01Z

cs/Markdown/TypeTag.cs

@@ -0,0 +1,11 @@
+namespace Markdown;
+
+public enum TypeTag


Обычно Type у enum-ов в конце названия

FnaTikJK · 2025-11-04T06:30:45Z

cs/Markdown/Md.cs

+
+public class Md
+{
+    private readonly ParserMarkdown parser = new();


В типе переменной лучше всегда использовать интерфейс, чтобы в будущем что-то лишнее случайно не "протекло" из реализации.
IParser parser = new ParserMarkdown()

FnaTikJK · 2025-11-04T06:32:18Z

cs/Markdown/Parser/ParserMarkdown.cs

@@ -0,0 +1,9 @@
+namespace Markdown;
+
+public class ParserMarkdown: IParser


Название интерфейса обычно пишут в конце реализации MarkdownParser

FnaTikJK · 2025-11-11T10:10:43Z

cs/Markdown/Parser/MarkdownParser.cs

+        //{ TagType.Link, "" },
+    };
+
+    private static readonly HashSet<char> escapeSymbols = ['\\', '#', '_'];


Просто для ознакомления. На маленьких размерах массивы эффективнее HashSet
https://stackoverflow.com/questions/150750/hashset-vs-list-performance

FnaTikJK · 2025-11-11T10:11:54Z

cs/Markdown/Parser/MarkdownParser.cs

+        if (text.Length <= position + 1) return false;
+
+        foreach (var symbol in escapeSymbols)
+            if (text[position + 1] == symbol)


Почему не isCanEscaping = escapeSymbols.Contains(text[position + 1])?

Не увидел, что можно так написать. Исправил.

FnaTikJK · 2025-11-11T10:26:37Z

cs/Markdown/Parser/MarkdownParser.cs

+    {
+        var possibleTags = new Dictionary<TagType, MarkdownTag>();
+
+        foreach (var keyValuePair in tags)


keyValuePair ничего не говорит о внутренности переменной, кроме того что это Tuple. Это как var list = new List<T>()
markdownTagByType / etc

Саму переменную tags я бы тоже предложил ренеймнуть. Например как MarkdownTagsByType / etc

FnaTikJK · 2025-11-11T10:29:15Z

cs/Markdown/Parser/MarkdownParser.cs

+
+    private static bool IsHeader(string text, int position, Stack<OpenToken> tokensWithOpenTag)
+    {
+        var tagLength = tags[TagType.Header].Content.Length;


Странно опять доставать тег из коллекции, если у тебя выше по стеку только что было это в виде отдельной переменной. Можно просто прокинуть сверху

FnaTikJK · 2025-11-11T10:31:41Z

cs/Markdown/Parser/MarkdownParser.cs

+        var tagLength = tags[TagType.Header].Content.Length;
+        var tagContent = tags[TagType.Header].Content;
+        var isNewParagraph = position == 0 ||
+                             (position >= 2 && text.AsSpan(position - 2, 2).Equals("\n\n", StringComparison.Ordinal));


Equals("\n\n"

Не будет работать на разных платформах.
https://stackoverflow.com/questions/1015766/difference-between-n-and-environment-newline

FnaTikJK · 2025-11-11T19:50:56Z

cs/Markdown/Renderer/HtmlRenderer.cs

+
+    public string Render(IEnumerable<Token> tokens)
+    {
+        var stringBuilder = new StringBuilder();


Можно сразу передавать ему буфер чтобы не аллоцировать лишний раз память. Как минимум должно быть text.Length

FnaTikJK · 2025-11-11T19:52:23Z

cs/Markdown/Tests/HtmlRendererTests.cs

+
+    public static IEnumerable<TestCaseData> CasesWhenListWithOneToken()
+    {
+        yield return new TestCaseData(new List<Token> { new (TagType.None, "Human") }, "Human");


Не хватает более комплексных тестов, но для первого варианта норм

FnaTikJK · 2025-11-11T19:54:20Z

cs/Markdown/Parser/MarkdownParser.cs

@@ -0,0 +1,451 @@
+namespace Markdown;
+
+public class MarkdownParser : IParser


В целом, парсер тяжко читать и осознавать. Попробуй как-нибудь декомпозировать, упростить логику

FnaTikJK · 2025-11-11T19:55:20Z

cs/Markdown/Parser/MarkdownParser.cs

+
+    private static List<Token> ProcessBorderlineCases(List<Token> tokens)
+    {
+        var result = ProcessEmptyUnderscores(tokens);


Что-то не понял зачем в каждом из этих методов делать ToList и аллоцировать память?

Сначала у меня там был void и данные менялись по ссылке, но чтобы методы были более читаемыми, сделал, чтобы методы что-то возвращали, Также решил сделать, чтобы первоначальная коллекция не менялась. Но да в целях оптимизации это нужно убрать.

FnaTikJK · 2025-11-11T19:59:28Z

cs/Markdown/Parser/MarkdownParser.cs

+
+    private static Token ProcessTokenWithNumbers(Token token)
+    {
+        if (token.TagType is TagType.Bold or TagType.Italic && token.Content.Any(char.IsDigit))


Логика неверна. теги не должны работать только если есть цифры + выделяется только часть слова

FnaTikJK · 2025-11-13T07:59:55Z

cs/Markdown/Tag/MarkdownTag/HeaderMarkdownTag.cs

+{
+    public override bool IsTag(string text, int position, bool isSameTagAlreadyOpen)
+    {
+        var doubleNewLineUnix = "\n\n";


Лучше использовать предназначенную константу из окружения
Environment.NewLine

Чтобы ниже брать корректную подстроку можно доставать из неё Length

FnaTikJK · 2025-11-13T08:02:31Z

cs/Markdown/Tag/MarkdownTag/HeaderMarkdownTag.cs

+
+        var isNewParagraph = isNewParagraphWindows || isNewParagraphUnix;
+
+        return text.AsSpan(position, TagText.Length).Equals(TagText, StringComparison.Ordinal) && isNewParagraph &&


Предложил бы в главном методе просто делать сразу return {набор bool-опреаторов}
Если нужно что-то посчитать(Например isNewParagraph), то можно выделить это в отдельный метод. и вызывать его.
Так можно улучшить:

производительность - по первой false не будет считаться всего остального

композицию - всё будет лежать в своих отдельных методах

FnaTikJK · 2025-11-13T08:11:48Z

cs/Markdown/Tag/MarkdownTag/ItalicMarkdownTag.cs

+{
+    public override bool IsTag(string text, int position, bool isSameTagAlreadyOpen)
+    {
+        if (TagType != TagType.Bold && TagType != TagType.Italic)


Как-то странно в публичном методе проверять внутреннее неизменяемое поле

FnaTikJK · 2025-11-13T08:17:32Z

cs/Markdown/Parser/MarkdownParser.cs

+
+    private static MarkdownTag GetTag(string text, int position, Stack<OpenToken> tokensWithOpenTag)
+    {
+        var possibleTags = new List<MarkdownTag>();


На каждом символе из текста аллоцировать новый массив слишком затратно

FnaTikJK · 2025-11-13T08:19:44Z

cs/Markdown/Parser/MarkdownParser.cs

+
+        foreach (var tag in markdownTagsByType.Values)
+        {
+            if (tag.TagText.Length + position > text.Length) continue;


Я бы сказал что это скорее логика тега - проверить, что он влазит в текст

FnaTikJK · 2025-11-14T14:58:28Z

cs/Markdown/Parser/MarkdownParser.cs

+        var result = new Token(openToken.OpenTag.TagType, text.Substring(openToken.TextStartPosition, length),
+            openToken.NestedTokens);
+
+        if (CheckOpenTokenTagBoldOrItalicLocatedInsideWords(text, endPosition, openToken) ||


Это выглядит как логика. которая должна лежать в {Name}Tag или какой-то альтернативной сущностью {Name}Token. Но лежать прямо в Parser мне кажется не лучший вариант. Потому что при росте кол-ва тегов у тебя будет столько развилок в логике, что читать и поддерживать будет невозможно

FnaTikJK · 2025-11-14T15:06:34Z

cs/Markdown/Parser/MarkdownParser.cs

+    {
+        var length = endPosition - openToken.TextStartPosition;
+
+        var result = new Token(openToken.OpenTag.TagType, text.Substring(openToken.TextStartPosition, length),


Почему тут решил использовать Substring? Ты на каждый токен аллоцируешь новую строку. Скорость работы будет не лучшей. По идее везде можно обойтись AsSpan

AsSpan возвращает ReadOnlySpan<char>. А в Token нужен string. То есть либо ReadOnlySpan<char>.ToString() (Но это тоже самое), либо хранить сразу ReadOnlySpan<char>, но это проблематично, так как у меня в Token есть List<Token>.

FnaTikJK · 2025-11-14T15:25:17Z

cs/Markdown/Parser/MarkdownParser.cs

+
+    private static Token ProcessEmptyUnderscores(Token token)
+    {
+        if (token is { TagType: TagType.Bold, Content.Length: 0, Children: null })


А Italic и другие могут в себе пустоту хранить?

Теперь отметаю эти вариант на моменте создания токенов.

FnaTikJK · 2025-11-14T15:32:52Z

cs/Markdown/Parser/IParser.cs

@@ -0,0 +1,6 @@
+namespace Markdown;
+
+public interface IParser


Ещё для ознакомления.
Сейчас у тебя структура файлов в проекте - Layer to folder. То есть есть разные слои приложения. По этим слоям мы раскладываем файлы.
Есть ещё один вариант - Feature to folder. Здесь файлы группируются по идейному смыслу, а не по слою. В твоём случае может быть что-то такое

Markdown/ -/MarkdownParser -/Tags/ --/ItalicMarkdwonTag ... Html/ -/HtmlRenderer -/HtmlTag IParser IRenderer

Как по мне Feature to folder выглядит более выигрышным вариантом, тк в большинстве случаев ты работаешь именно с фичей, а не слоем. То есть нужно добавить/измнеить логику Markdown - ты открыл папку Markdown и работаешь только с ней. Конечно сейчас ещё может понадобиться потрогать HtmlRenderer, но в реальных ситуациях это редкость.
В Layer to folder у тебя может быть открыто большое кол-во верхнеуровневых папок из-за чего может быть тяжело ориентироваться.
Я не призываю это исправлять. Просто говорю как можно поступить ещё.

FnaTikJK · 2025-11-14T15:37:45Z

cs/Markdown/PlatformType.cs

@@ -0,0 +1,8 @@
+namespace Markdown;
+
+public enum PlatformType


Какой-то рудимент

Dobtyk added 3 commits October 30, 2025 23:02

Classwork

ce5fffa

Initial structure

502a801

Revert "Classwork"

cb80f63

This reverts commit ce5fffa.

FnaTikJK reviewed Nov 4, 2025

View reviewed changes

Dobtyk added 7 commits November 4, 2025 15:16

Refactoring

6ac0790

Parser

7218197

HtmlRenderer

8753d40

Refactoring and added mdTests

570f116

Refactoring

3f4d06f

Refactoring

1b854a4

Cleanup

1c57630

FnaTikJK reviewed Nov 11, 2025

View reviewed changes

Dobtyk added 3 commits November 12, 2025 19:06

Refactoring HtmlRenderer

ebf6fa2

Refactoring parser

76fc09e

Refactoring

ae8c4bf

FnaTikJK reviewed Nov 14, 2025

View reviewed changes

Dobtyk added 3 commits November 15, 2025 18:36

Performance test

e2fd38a

Refactoring

01114f2

Refactoring

78bcec4

		@@ -0,0 +1,9 @@
		namespace Markdown;

		public class ParserMarkdown: IParser

		@@ -0,0 +1,451 @@
		namespace Markdown;

		public class MarkdownParser : IParser


		var isNewParagraph = isNewParagraphWindows \|\| isNewParagraphUnix;

		return text.AsSpan(position, TagText.Length).Equals(TagText, StringComparison.Ordinal) && isNewParagraph &&

Нухов Руслан #254

Are you sure you want to change the base?

Нухов Руслан #254

Uh oh!

Conversation

Dobtyk commented Nov 3, 2025

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants