Rövidített megjelenítés

Paczolay, Gabor
Harmati, Istvan
2025-08-18T13:00:44Z
2025-08-18T13:00:44Z
2024
1785-8860hu_HU
http://hdl.handle.net/20.500.14044/32343
Discount factor plays an important role in reinforcement learning algorithms. It decides how much future rewards are valued for the present time-step. In this paper, a system with a Q value estimation, based on two distinct discount factors are utilized. These estimations can later be merged into one network, to make the computations more efficient. The decision of which network to use, is based on the relative value of the maximum value of the short-term network, the more unambiguous the maximum is, the more probability is rendered to the selection of that network. The system is then benchmarked, on a cartpole and a gridworld environment.hu_HU
dc.formatPDFhu_HU
enhu_HU
NPV-DQN: Improving Value-based Reinforcement Learning, by Variable Discount Factor, with Control Applicationshu_HU
Open accesshu_HU
Óbudai Egyetemhu_HU
Budapesthu_HU
Óbudai Egyetemhu_HU
Társadalomtudományok - gazdálkodás- és szervezéstudományokhu_HU
reinforcement learninghu_HU
DQNhu_HU
NPVhu_HU
NPV-DQNhu_HU
Tudományos cikkhu_HU
Acta Polytechnica Hungaricahu_HU
local.tempfieldCollectionsFolyóiratcikkekhu_HU
10.12700/APH.21.11.2024.11.10
Kiadói változathu_HU
16 p.hu_HU
11. sz.hu_HU
21. évf.hu_HU
2024hu_HU
Óbudai Egyetemhu_HU


A dokumentumhoz tartozó fájlok

Thumbnail

A dokumentum a következő gyűjtemény(ek)ben található meg

Rövidített megjelenítés