Undergraduate Elective 1078: Διαφορά μεταξύ των αναθεωρήσεων

Από Περιγράμματα - Τμήμα Μαθηματικών
Μετάβαση σε: πλοήγηση, αναζήτηση
Ktzuvara (συζήτηση | συνεισφορές)
Ktzuvara (συζήτηση | συνεισφορές)
 
Γραμμή 190: Γραμμή 190:
=== Syllabus ===
=== Syllabus ===


{| class="wikitable" style="width: 100%;"
|
MDPs in discrete time on a finite time horizon, MDPs in discrete time on an infinite time horizon. Properties of the Bellman equation, contraction and monotonicity, policy improvement algorithms, gradient descent, mirror descent and stochastic gradient descent. Basic principles of reinforcement learning, introduction to a simplified subclass of Reinforcement Learning problems also known as Multi-Armed Bandits. Reinforcement learning methods based on successive approximation algorithms (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Reinforcement learning methods based on policy improvement algorithms (policy iteration): Policy gradient, natural policy gradient.
MDPs in discrete time on a finite time horizon, MDPs in discrete time on an infinite time horizon. Properties of the Bellman equation, contraction and monotonicity, policy improvement algorithms, gradient descent, mirror descent and stochastic gradient descent. Basic principles of reinforcement learning, introduction to a simplified subclass of Reinforcement Learning problems also known as Multi-Armed Bandits. Reinforcement learning methods based on successive approximation algorithms (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Reinforcement learning methods based on policy improvement algorithms (policy iteration): Policy gradient, natural policy gradient.
 
|}


=== Teaching and Learning Methods - Evaluation ===
=== Teaching and Learning Methods - Evaluation ===

Τελευταία αναθεώρηση της 00:53, 28 Μαρτίου 2026


Γενικά

Σχολή Σχολή Θετικών Επιστημών
Τμήμα Τμήμα Μαθηματικών
Επίπεδο Σπουδών Προπτυχιακό
Κωδικός Μαθήματος MAE839
Εξάμηνο 8
Τίτλος Μαθήματος Σεμινάριο Επιχειρησιακής Έρευνας: Μαρκοβιανές Διαδικασίες Αποφάσεων και Ενισχυτική Μάθηση
Αυτοτελείς Διδακτικές Δραστηριότητες Διαλέξεις, παρουσιάσεις και Ασκήσεις (Εβδομαδιαίες Ώρες Διδασκαλίας: 3, Πιστωτικές Μονάδες: 6)
Τύπος Μαθήματος Ειδίκευσης
Προαπαιτούμενα Μαθήματα Δεν υπάρχουν. Συνίστανται τα μαθήματα «Εισαγωγή στις Πιθανότητες», «Στοχαστικές Διαδικασίες» και «Θέματα Επιχειρησιακής Έρευνας»: Βασικές γνώσεις θεωρίας πιθανοτήτων, θεωρίας Μαρκοβιανών αλυσίδων διακριτού χρόνου και δυναμικού προγραμματισμού.
Γλώσσα Διδασκαλίας και Εξετάσεων Ελληνικά.
Το Μάθημα Προσφέρεται σε Φοιτητές Erasmus Όχι.
Ηλεκτρονική Σελίδα Μαθήματος (URL) Δείτε το eCourse, την Πλατφόρμα Ασύγχρονης Εκπαίδευσης του Πανεπιστημίου Ιωαννίνων.


Μαθησιακά Αποτελέσματα

Μαθησιακά Αποτελέσματα

Η θεωρία των διαδικασιών απόφασης Markov (Markov Decision Processes-MDPs) - επίσης γνωστή ως ακολουθιακή θεωρία απόφασης (sequential decision making), στοχαστικός έλεγχος ή στοχαστικός δυναμικός προγραμματισμός - μελετά τη ακολουθιακή βελτιστοποίηση στοχαστικών συστημάτων ελέγχοντας τον μηχανισμό μετάβασής τους με την πάροδο του χρόνου. Συγκεκριμένα, παρέχει μεθοδολογίες/αλγόριθμους βέλτιστης επίλυσης για ένα ευρύ φάσμα προβλημάτων που αφορούν διαδοχικές αποφάσεις σε ένα τυχαίο περιβάλλον μοντελοποιημένο από μια αλυσίδα Markov. Οι MDPs έχουν εφαρμογές σε πολλούς τομείς, συμπεριλαμβανομένης της διαχείρισης εσόδων (revenue management), έλεγχος ουρών αναμονής, χρηματοοικονομικά, τηλεπικοινωνίες, βιομηχανία, υγεία κ.α. Αποτελούν το μαθηματικό εργαλείο μοντελοποίησης προβλημάτων που εμφανίζεται η ενισχυτική μάθηση (Reinforcement Learning-RL). Η RL αποτελεί μια από τις πιο ανερχόμενες κατηγορίες Μηχανικής Μάθησης, λόγω της μεγάλης ευελιξίας που διαθέτουν οι αλγόριθμοι της, στην διαχείριση μεγάλων χώρων καταστάσεων και άγνωστων πιθανοτήτων μετάβασης, σε προβλήματα που μοντελοποιούνται ως MDPs. Η εν λόγω ερευνητική περιοχή παρέχει μεθόδους και τεχνικές για την προσέγγιση της βέλτιστης τιμής και στρατηγικής μεγάλης κλίμακας προβλημάτων απόφασης Markov.

Στόχος του μαθήματος είναι οι φοιτητές:

  • Να εξοικειωθούν με τη γενική θεωρία και τεχνικές σχετικά με τις MDPs.
  • Να λάβουν γνώση των βασικών αλγοριθμικών μεθόδων για MDPs και να εξοικειωθούν με το περιβάλλον της ενισχυτικής μάθησης.

Στο τέλος του μαθήματος, ο φοιτητής θα μπορεί:

  • να αξιολογήσει θεωρήματα και μεθοδολογίες στο πεδίο των MDPs,
  • να κατανοεί τις βασικές ιδέες και αρχές των MDPs και RL,
  • να εφαρμόζει αλγοριθμικές μεθόδους για MDPs σε πραγματικά παραδείγματα με χρήση λογισμικού R, Matlab,
  • να κατανοεί τις εφαρμογές της RL σε ρεαλιστικά προβλήματα.
Γενικές Ικανότητες
  • Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών
  • Αυτόνομη εργασία
  • Ομαδική εργασία
  • Άσκηση κριτικής και αυτοκριτικής

Οι ειδικότερες γενικές ικανότητες καθορίζονται από τον εκάστοτε διδάσκοντα.


Περιεχόμενο Μαθήματος

Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε πεπερασμένο χρονικό ορίζοντα, Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο σε άπειρο χρονικό ορίζοντα. Ιδιότητες εξίσωσης Bellman, συστολής και μονοτονίας, αλγόριθμοι βελτίωσης πολιτικών, gradient descent, mirror descent and stochastic gradient descent. Βασικές αρχές ενισχυτικής μάθησης, εισαγωγή σε μια απλουστευμένη υποκατηγορία προβλημάτων Ενισχυτικής Μάθησης γνωστή και ως Multi-Armed Bandits. Μέθοδοι ενισχυτικής μάθησης βασισμένοι σε αλγορίθμους διαδοχικών προσεγγίσεων (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Μέθοδοι ενισχυτικής μάθησης βασισμένοι σε αλγορίθμους βελτίωσης πολιτικών (policy iteration): Policy gradient, natural policy gradient. Το ειδικότερο περιεχόμενο του κάθε σεμιναρίου καθορίζεται από τον εκάστοτε διδάσκοντα.

Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση

Τρόπος Παράδοσης Κατά την κρίση του εκάστοτε διδάσκοντα, με βασική μέθοδο την παρουσίαση της ύλης μέσω διαλέξεων των συμμετεχόντων.
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών Χρήση Learning Management System και άλλων πακέτων λογισμικού ή τεχνολογιών, κατά την κρίση του εκάστοτε διδάσκοντα.
Οργάνωση Διδασκαλίας
Δραστηριότητα Φόρτος Εργασίας Εξαμήνου
Διαλέξεις (13Χ3) 39
Αυτοτελής Μελέτη 78
Επίλυση ασκήσεων - Εργασίες 33
Σύνολο Μαθήματος 150
Αξιολόγηση Φοιτητών Το μάθημα, ως σεμιναριακό, εξ ορισμού δεν έχει τελική γραπτή εξέταση. Τα κριτήρια αξιολόγησης περιλαμβάνουν, κατ’ ελάχιστον, τη συγγραφή μιας ολοκληρωμένης αναφοράς σε θέμα το οποίο πραγματεύεται το μάθημα και μια δημόσια παρουσίαση στο ακροατήριο του μαθήματος. Παράλληλα, μπορούν να συμπεριληφθούν και άλλες μέθοδοι αξιολόγησης, κατά την κρίση του εκάστοτε διδάσκοντα. Το μάθημα είναι υποχρεωτικής παρακολούθησης. Για να καταχωρηθεί βαθμός, οι απουσίες δεν πρέπει να υπερβαίνουν τις τρεις (3).


Συνιστώμενη Βιβλιογραφία

Δείτε την υπηρεσία Εύδοξος. Συγγράμματα και άλλες πηγές εκτός της υπηρεσίας Εύδοξος:

  • ---


General

School School of Science
Academic Unit Department of Mathematics
Level of Studies Undergraduate
Course Code ΜΑΕ839
Semester 8
Course Title Seminar in Operational Research: Markov Decision Processes and Reinforcement Learning
Independent Teaching Activities Lectures (Weekly Hours: 3, Credits: 6)
Course Type Special Background
Prerequisite Courses It is desirable to have an elementary knowledge of probability theory, Markov chains, and linear/dynamic programming.
Language of Instruction and Examinations Greek
Is the Course Offered to Erasmus Students No
Course Website (URL) See eCourse, the Learning Management System maintained by the University of Ioannina.


Learning Outcomes

Learning outcomes The theory of Markov decision processes (MDPs) - also known under the names sequential decision theory, stochastic control or stochastic dynamic programming - studies sequential optimisation of stochastic systems by controlling their transition mechanism over time. In particular, it provides solution methodologies for a wide range of problems concerning sequential decisions in a random environment, statistically modeled by a finite-state Markov chain. The optimal strategy is calculated by appropriate algorithms, which are derived and illustrated in the first part of the course. MDPs have applications in many areas including revenue management (e.g., hotel, airline, and rental car pricing), control of queues, financial engineering, telecommunications, manufacturing, and economics. MDPs provides the mathematical foundation of Reinforcement Learning (RL). RL is one of the most important and emerging categories of Machine Learning, due to the great flexibility of its algorithms in managing large state spaces in problems modeled as MDPs. The aim of the second part of the course is to present the basic principles of Reinforcement Learning, emphasizing both the necessary mathematical framework in which it is structured, and the algorithms, many of which are installed in the R and Matlab programs, for their better understanding.
General Competences

The course aims to enable students to:

  • Become familiar with the general theory and techniques related to MDPs.
  • Become familiar with the basic algorithmic methods for MDPs and become familiar with the reinforcement learning environment.

At the end of the course, the student will be able to:

  • evaluate well-known theorems in the field of MDPs,
  • apply algorithmic methods for MDPs to real-world examples using R, Matlab software.
  • implement common RL algorithms in code.


Syllabus

MDPs in discrete time on a finite time horizon, MDPs in discrete time on an infinite time horizon. Properties of the Bellman equation, contraction and monotonicity, policy improvement algorithms, gradient descent, mirror descent and stochastic gradient descent. Basic principles of reinforcement learning, introduction to a simplified subclass of Reinforcement Learning problems also known as Multi-Armed Bandits. Reinforcement learning methods based on successive approximation algorithms (value iteration): Q-learning based on a single trajectory, with and without function approximation, offline and online versions. Reinforcement learning methods based on policy improvement algorithms (policy iteration): Policy gradient, natural policy gradient.

Teaching and Learning Methods - Evaluation

Delivery Details will be determined by the teaching professor. Methods include presentations contacted by the students.
Use of Information and Communications Technology Details will be determined by the teaching professor.
Teaching Methods
Activity Semester Workload
Study in class 39
Other activities determined by the teaching professor 111
Course total 150
Student Performance Evaluation Take home problems plus a presentation. You work on the problems in groups of size 2. Other means of evaluation can be determined by the teaching professor.


Attached Bibliography

See the official Eudoxus site. Books and other resources, not provided by Eudoxus:

  • ---