Replies: 1 comment
-
|
其实这个东西我们很早之前就尝试过,但是那时候我们觉得占用显存最大的很多时候并不是参数的数量,而是中间的其他数据,而那些数据与bach_size有关。所以当时我们做出来之后效果并不好,并没有节省多少显存,大概也就几百兆的样子,最后这东西也就不了了之了。。。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
我们当时总结了很多种方案来实现这个idea,但是因为我自己转了其他方向,所以就没继续做下去(不过倒是在某些群里讨论过)。很感谢你们做出了这个版本。
这个优化算法其实还有一些可操作(魔改)的空间来增强它的精度和稳定性,不过我不想在这里讨论。
Beta Was this translation helpful? Give feedback.
All reactions