Work optimization memory by denio-rus · Pull Request #54 · hardcode-dev/rails-optimization-task2

denio-rus · 2021-05-04T12:53:40Z

Построить и проанализировать отчёт гемом memory_profiler
Построить и проанализировать отчёт ruby-prof в режиме Flat;
Построить и проанализировать отчёт ruby-prof в режиме Graph;
Построить и проанализировать отчёт ruby-prof в режиме CallStack;
Построить и проанализировать отчёт ruby-prof в режиме CallTree c визуализацией в QCachegrind;
Построить и проанализировать текстовый отчёт stackprof;
Построить и проанализировать отчёт flamegraph с помощью stackprof и визуализировать его в speedscope.app;
Построить график потребления памяти в valgrind massif visualier и включить скриншот в описание вашего PR;
Написать тест, на то что программа укладывается в бюджет по памяти

Change method work to streaming style work

improve collecting allBrowsers stats

improve Date parsing

user key (RubyProf Callgrind)

improve collection of allBrowsers

remove double file_line split

denio-rus · 2021-05-04T12:57:00Z

data_large:

меньший тест, но с отключением тестовых гемов

spajic

Хорошая работа, здорово, что попробовали разные профилировщики 👍

spajic · 2021-05-07T07:25:55Z


 ## Feedback-Loop
-Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за *время, которое у вас получилось*
+Для того, чтобы иметь возможность быстро проверять гипотезы я выстроил эффективный `feedback-loop`, который позволил мне получать обратную связь по эффективности сделанных изменений за 40 с (до оптимизации). Возможно время выполнения пока достаточно большое, но предыдущий опыт показал, что первые оптимизации довольно быстро уменьшают время, что в первой задаче привело к тому, что стало просто неочевидно - сказались изменения или нет. Либо я что-то делаю не так.


В районе минуты - вполне ок.

spajic · 2021-05-07T07:27:58Z

+Показатели: MEMORY USAGE: 170 MB  Work time: 40.490744165999786. 
+Попробовал запустить метод с опросом по памяти в конце обработки каждой строки. Максимальное значение, что увидел, примерное такое же (169) +/- погрешность. Но до 10000 строк значение составляли до 80 МВ, и только после выросло выше 100. Либо данные так скомпонованы, либо что-то накапливается. В любом случае, на первом этапе этот размер данных полагаю подходящим. 
+Все измерения на ноуте с питанием от сети, CPU в режиме perfomance.
+update:  далее быстро выяснил, что запуск с профилировщиком и таким объемом данных это нерабочая схема. Для метрики можно использовать такой пакет, но для профилирования возьму 3250 строк.


Да, профилировщик сильно замедляет работу. Особенно если это трассирующий профилировщик, как ruby-prof.
stackprof в этом плане полегче, а через rbspy можно даже на продовый процесс посмотреть.

spajic · 2021-05-07T07:30:56Z

+
+Итог: переписал в потоковом стиле. Выбрал вариант с записью в один файл, то есть информация по пользователю пишется сразу после обработки его "блока сессий".
+Теперь метод в работе занимает 30-32 МБ, это проверял на 3250, 16250, 32500 и 100_000(проверял это запросом по памяти в каждой строке ()при 16250), но надо подтвердить в `valgrind massif visualizer`).
+Выявилась проблема: "Полные тезки". На 100_000 итоговый json начал выдавать предупреждения о проблеме  "Duplicate object key". Дело в том, что пользователи с одинаковыми именем и фамилией генерируют одинаковый ключ. Надо бы добавить id к ключу, чтоб решить эту проблему. Пример: `user,4011,Rico,Waneta,13`, `user,10412,Rico,Waneta,13`


Есть такая штука, можно пренебречь в этом задании

spajic · 2021-05-07T07:33:43Z

+Graph и Stack тоже указывают на парсинг дат как следующую точку роста.
+
+- Даты в отчет записываются в виде строки из сортированных дат, чтобы сохранять возможность сортировки в ходе анализа сессий одного пользователя буду хранить даты в массиве. Сортировку и преобразование в строку выделю в одтельный метод и буду вызывать перед записью в файл. 
+- метрика осталась на прежнем уровне. У меня появилось подозрение, что я уже укладываюсь в бюджет. Проверил это с помощью valgrind, так и есть, программа выходит на уровень 43 МБ и дальше идет ровно. Хоть и есть мантра №1, но мой главный профит не в оптимизации метода, а в опробовании профайлеров. Так что еще пару итераций я сделаю


Плюсую, главное добавить себе в арсенал новые умения.

spajic · 2021-05-07T07:37:09Z

-  users = []
-  sessions = []
+def prepare_dates_for_report_json(report, user, user_key)
+  report['usersStats'][user_key]['dates'] = report['usersStats'][user_key]['dates'].sort.reverse.map!(&:iso8601)


С датами можно ничего не делать, это подвох

метод sort создаёт новый массив
метод reverse тоже создаёт новый массив

spajic · 2021-05-07T07:39:22Z

+
+      # Collect total stats
+      report['totalSessions'] += 1
+      uniqueBrowsers += [session['browser']] if uniqueBrowsers.all? { |b| b != session['browser'] }


Создаём лишние массивы

Лучше uniqueBrowsers << session['browser']

Или можно использовать класс Set для сбора уникальных браузеров

uniqueBrowsers.all? не эффективно, требует полного перебора uniqueBrowsers - опять-таки решается использованием Set

spajic · 2021-05-07T07:40:14Z

+      uniqueBrowsers += [session['browser']] if uniqueBrowsers.all? { |b| b != session['browser'] }
+      report['uniqueBrowsersCount'] = uniqueBrowsers.count
+
+      report['allBrowsers'] << session['browser'].upcase unless report['allBrowsers'].include?(session['browser'].upcase)  


include? тоже в худшем случае требует полного перебора

spajic · 2021-05-07T07:41:37Z

+
+      # Браузеры пользователя через запятую
+      collect_stats_from_user(report, user, user_key) do |user|
+        user.sessions_stats['browsers'] = (user.sessions_stats['browsers'].split(',').map(&:strip) << session['browser'].upcase).sort.join(', ')


map, sort создают новые массивы

denio-rus added 12 commits April 28, 2021 11:11

Change to a streaming work

4616760

Before optimization

299d9c6

Abort mission -no real streaming found

6b18465

Fix json building

102dc6d

Otimization - iteration 1

668bba3

Change method work to streaming style work

Optimization iteration 2

59377a0

improve collecting allBrowsers stats

Optimization iteration 3

9ab4c03

improve Date parsing

Optimization iteration 4

0cb4ae9

user key (RubyProf Callgrind)

Optimization iteration 5

dc29d7f

improve collection of allBrowsers

Optimization iteration 6

21da6e9

remove double file_line split

Optimiation - Frozen strings

c6087f4

Final

c1ac171

Add spec

f9701ce

spajic approved these changes May 7, 2021

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Work optimization memory#54

Work optimization memory#54
denio-rus wants to merge 13 commits intohardcode-dev:masterfrom
denio-rus:work-optimization-memory

denio-rus commented May 4, 2021 •

edited

Loading

Uh oh!

denio-rus commented May 4, 2021

Uh oh!

spajic left a comment

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

spajic May 7, 2021

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

denio-rus commented May 4, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

denio-rus commented May 4, 2021

Uh oh!

spajic left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

denio-rus commented May 4, 2021 •

edited

Loading