Este livro est estruturado em cinco unidades, oferecendo uma experi ncia de aprendizagem hol stica. A viagem come a com uma introdu o aos algoritmos bandit, explorando conceitos fundamentais como os algoritmos Upper Confidence Bound (UCB) e Probably Approximately Correct (PAC). A unidade seguinte introduz a estrutura completa da Aprendizagem por Refor o (RL), indo al m dos algoritmos bandit para considerar as interac es agente-ambiente ao longo...