Run v3

2026-04-26 16:01:30 +00:00
parent e2883212c5
commit 27fe6d1bf5
36 changed files with 479 additions and 0 deletions
@@ -0,0 +1,242 @@
+Config loaded from config.json
+Config: {'W_PER_SHEEP': 2.0, 'W_ALIGN': 0.05, 'W_PEN_BONUS': 10.0, 'W_COMPLETE': 100.0, 'W_STEP_COST': 0.02, 'W_SOUTH': 0.01, 'W_COMPACT': 0.0, 'W_WALL_TOUCH': 0.0, 'WALL_TOUCH_BUFFER': 0.4, 'ALIGN_SHAPE': 'standoff', 'ALIGN_GATED': True, 'ENTRY_AWARE': True, 'ent_coef': 0.02}
+Run dir: runs/v3
+Curriculum: 1 → 10 sheep, 1,500,000 steps/stage
+
+
+[Stage n_sheep=1] training 1,500,000 steps
+           ... [1 sheep | 100,000 steps | ret(last 24)=-47.74  win_sr=12%  cum_sr=12%]
+           ... [1 sheep | 200,000 steps | ret(last 50)=-40.77  win_sr=14%  cum_sr=16%]
+           ... [1 sheep | 300,000 steps | ret(last 50)=-36.39  win_sr=16%  cum_sr=16%]
+           ... [1 sheep | 400,000 steps | ret(last 50)=-40.04  win_sr=14%  cum_sr=15%]
+           ... [1 sheep | 500,000 steps | ret(last 50)=+7.09  win_sr=80%  cum_sr=36%]
+           ... [1 sheep | 600,000 steps | ret(last 50)=+15.87  win_sr=100%  cum_sr=71%]
+           ... [1 sheep | 700,000 steps | ret(last 50)=+14.78  win_sr=100%  cum_sr=84%]
+           ... [1 sheep | 800,000 steps | ret(last 50)=+14.04  win_sr=100%  cum_sr=90%]
+           ... [1 sheep | 900,000 steps | ret(last 50)=+14.08  win_sr=100%  cum_sr=92%]
+           ... [1 sheep | 1,000,000 steps | ret(last 50)=+13.33  win_sr=100%  cum_sr=94%]
+           ... [1 sheep | 1,100,000 steps | ret(last 50)=+13.99  win_sr=100%  cum_sr=95%]
+           ... [1 sheep | 1,200,000 steps | ret(last 50)=+13.38  win_sr=100%  cum_sr=96%]
+           ... [1 sheep | 1,300,000 steps | ret(last 50)=+13.18  win_sr=100%  cum_sr=96%]
+           ... [1 sheep | 1,400,000 steps | ret(last 50)=+13.53  win_sr=100%  cum_sr=97%]
+           ... [1 sheep | 1,500,000 steps | ret(last 50)=+13.46  win_sr=100%  cum_sr=97%]
+[Stage n_sheep=1] evaluating 30 eps
+[Stage n_sheep=1] sr=100%  mean_len=264  mean_min_pen=3.7m  mean_act=0.45
+  failure modes: SUCCESS=30
+  reward/step: progress=+0.1156  alignment=+0.0001  south=-0.0005  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0378  step_cost=-0.0200  complete=+0.3784
+
+[Stage n_sheep=2] training 1,500,000 steps
+           ... [2 sheep | 1,507,336 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [2 sheep | 1,607,336 steps | ret(last 35)=-3.04  win_sr=49%  cum_sr=49%]
+           ... [2 sheep | 1,707,336 steps | ret(last 50)=-11.13  win_sr=20%  cum_sr=33%]
+           ... [2 sheep | 1,807,336 steps | ret(last 50)=-11.83  win_sr=18%  cum_sr=31%]
+           ... [2 sheep | 1,907,336 steps | ret(last 50)=-8.76  win_sr=30%  cum_sr=31%]
+           ... [2 sheep | 2,007,336 steps | ret(last 50)=-8.95  win_sr=30%  cum_sr=30%]
+           ... [2 sheep | 2,107,336 steps | ret(last 50)=-9.06  win_sr=32%  cum_sr=30%]
+           ... [2 sheep | 2,207,336 steps | ret(last 50)=-9.48  win_sr=32%  cum_sr=30%]
+           ... [2 sheep | 2,307,336 steps | ret(last 50)=-1.70  win_sr=44%  cum_sr=33%]
+           ... [2 sheep | 2,407,336 steps | ret(last 50)=+5.02  win_sr=64%  cum_sr=38%]
+           ... [2 sheep | 2,507,336 steps | ret(last 50)=+13.32  win_sr=88%  cum_sr=46%]
+           ... [2 sheep | 2,607,336 steps | ret(last 50)=+12.15  win_sr=90%  cum_sr=54%]
+           ... [2 sheep | 2,707,336 steps | ret(last 50)=+17.13  win_sr=98%  cum_sr=63%]
+           ... [2 sheep | 2,807,336 steps | ret(last 50)=+18.81  win_sr=98%  cum_sr=69%]
+           ... [2 sheep | 2,907,336 steps | ret(last 50)=+16.23  win_sr=92%  cum_sr=73%]
+           ... [2 sheep | 3,007,336 steps | ret(last 50)=+18.83  win_sr=100%  cum_sr=76%]
+[Stage n_sheep=2] evaluating 30 eps
+[Stage n_sheep=2] sr=77%  mean_len=1398  mean_min_pen=3.3m  mean_act=0.97
+  failure modes: SUCCESS=23  PARTIAL_1of2=6  COMPACT_CANT_DRIVE=1
+  reward/step: progress=+0.0401  alignment=+0.0045  south=-0.0039  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0126  step_cost=-0.0200  complete=+0.0549
+
+[Stage n_sheep=3] training 1,500,000 steps
+           ... [3 sheep | 3,014,664 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [3 sheep | 3,114,664 steps | ret(last 50)=+13.79  win_sr=82%  cum_sr=84%]
+           ... [3 sheep | 3,214,664 steps | ret(last 50)=+21.64  win_sr=96%  cum_sr=88%]
+           ... [3 sheep | 3,314,664 steps | ret(last 50)=+23.45  win_sr=98%  cum_sr=92%]
+           ... [3 sheep | 3,414,664 steps | ret(last 50)=+22.18  win_sr=98%  cum_sr=94%]
+           ... [3 sheep | 3,514,664 steps | ret(last 50)=+24.83  win_sr=100%  cum_sr=96%]
+           ... [3 sheep | 3,614,664 steps | ret(last 50)=+19.77  win_sr=94%  cum_sr=96%]
+           ... [3 sheep | 3,714,664 steps | ret(last 50)=+25.53  win_sr=100%  cum_sr=96%]
+           ... [3 sheep | 3,814,664 steps | ret(last 50)=+25.24  win_sr=100%  cum_sr=97%]
+           ... [3 sheep | 3,914,664 steps | ret(last 50)=+24.43  win_sr=100%  cum_sr=97%]
+           ... [3 sheep | 4,014,664 steps | ret(last 50)=+24.59  win_sr=100%  cum_sr=97%]
+           ... [3 sheep | 4,114,664 steps | ret(last 50)=+22.18  win_sr=98%  cum_sr=98%]
+           ... [3 sheep | 4,214,664 steps | ret(last 50)=+23.11  win_sr=96%  cum_sr=97%]
+           ... [3 sheep | 4,314,664 steps | ret(last 50)=+23.06  win_sr=98%  cum_sr=97%]
+           ... [3 sheep | 4,414,664 steps | ret(last 50)=+23.35  win_sr=100%  cum_sr=97%]
+           ... [3 sheep | 4,514,664 steps | ret(last 50)=+22.50  win_sr=100%  cum_sr=98%]
+[Stage n_sheep=3] evaluating 30 eps
+[Stage n_sheep=3] sr=97%  mean_len=1095  mean_min_pen=2.5m  mean_act=0.95
+  failure modes: SUCCESS=29  COMPACT_CANT_DRIVE=1
+  reward/step: progress=+0.0821  alignment=+0.0113  south=-0.0087  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0265  step_cost=-0.0200  complete=+0.0883
+
+[Stage n_sheep=4] training 1,500,000 steps
+           ... [4 sheep | 4,521,992 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [4 sheep | 4,621,992 steps | ret(last 50)=+22.17  win_sr=92%  cum_sr=94%]
+           ... [4 sheep | 4,721,992 steps | ret(last 50)=+25.81  win_sr=94%  cum_sr=93%]
+           ... [4 sheep | 4,821,992 steps | ret(last 50)=+21.80  win_sr=90%  cum_sr=93%]
+           ... [4 sheep | 4,921,992 steps | ret(last 50)=+26.38  win_sr=98%  cum_sr=94%]
+           ... [4 sheep | 5,021,992 steps | ret(last 50)=+26.65  win_sr=98%  cum_sr=95%]
+           ... [4 sheep | 5,121,992 steps | ret(last 50)=+26.07  win_sr=98%  cum_sr=95%]
+           ... [4 sheep | 5,221,992 steps | ret(last 50)=+27.08  win_sr=98%  cum_sr=96%]
+           ... [4 sheep | 5,321,992 steps | ret(last 50)=+27.87  win_sr=100%  cum_sr=96%]
+           ... [4 sheep | 5,421,992 steps | ret(last 50)=+27.53  win_sr=100%  cum_sr=97%]
+           ... [4 sheep | 5,521,992 steps | ret(last 50)=+25.91  win_sr=100%  cum_sr=97%]
+           ... [4 sheep | 5,621,992 steps | ret(last 50)=+27.75  win_sr=100%  cum_sr=97%]
+           ... [4 sheep | 5,721,992 steps | ret(last 50)=+25.63  win_sr=100%  cum_sr=97%]
+           ... [4 sheep | 5,821,992 steps | ret(last 50)=+24.43  win_sr=98%  cum_sr=97%]
+           ... [4 sheep | 5,921,992 steps | ret(last 50)=+22.52  win_sr=94%  cum_sr=97%]
+           ... [4 sheep | 6,021,992 steps | ret(last 50)=+27.28  win_sr=100%  cum_sr=98%]
+[Stage n_sheep=4] evaluating 30 eps
+[Stage n_sheep=4] sr=57%  mean_len=2572  mean_min_pen=2.2m  mean_act=1.28
+  failure modes: SUCCESS=17  PARTIAL_1of4=6  PARTIAL_2of4=5  DROVE_NO_SHEEP=1  NEVER_COMPACT=1
+  reward/step: progress=+0.0455  alignment=+0.0040  south=-0.0454  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0109  step_cost=-0.0200  complete=+0.0220
+
+[Stage n_sheep=5] training 1,500,000 steps
+           ... [5 sheep | 6,029,320 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [5 sheep | 6,129,320 steps | ret(last 50)=+28.06  win_sr=96%  cum_sr=96%]
+           ... [5 sheep | 6,229,320 steps | ret(last 50)=+31.40  win_sr=98%  cum_sr=96%]
+           ... [5 sheep | 6,329,320 steps | ret(last 50)=+27.81  win_sr=96%  cum_sr=96%]
+           ... [5 sheep | 6,429,320 steps | ret(last 50)=+22.08  win_sr=88%  cum_sr=95%]
+           ... [5 sheep | 6,529,320 steps | ret(last 50)=+26.99  win_sr=94%  cum_sr=95%]
+           ... [5 sheep | 6,629,320 steps | ret(last 50)=+21.24  win_sr=86%  cum_sr=93%]
+           ... [5 sheep | 6,729,320 steps | ret(last 50)=+24.58  win_sr=94%  cum_sr=93%]
+           ... [5 sheep | 6,829,320 steps | ret(last 50)=+29.66  win_sr=96%  cum_sr=93%]
+           ... [5 sheep | 6,929,320 steps | ret(last 50)=+27.53  win_sr=96%  cum_sr=93%]
+           ... [5 sheep | 7,029,320 steps | ret(last 50)=+28.99  win_sr=100%  cum_sr=94%]
+           ... [5 sheep | 7,129,320 steps | ret(last 50)=+27.59  win_sr=98%  cum_sr=94%]
+           ... [5 sheep | 7,229,320 steps | ret(last 50)=+30.79  win_sr=100%  cum_sr=95%]
+           ... [5 sheep | 7,329,320 steps | ret(last 50)=+30.56  win_sr=98%  cum_sr=95%]
+           ... [5 sheep | 7,429,320 steps | ret(last 50)=+31.55  win_sr=100%  cum_sr=95%]
+           ... [5 sheep | 7,529,320 steps | ret(last 50)=+29.95  win_sr=100%  cum_sr=96%]
+[Stage n_sheep=5] evaluating 30 eps
+[Stage n_sheep=5] sr=0%  mean_len=4000  mean_min_pen=1.7m  mean_act=1.36
+  failure modes: PARTIAL_4of5=17  PARTIAL_1of5=9  PARTIAL_3of5=2  PARTIAL_2of5=2
+  reward/step: progress=+0.0396  alignment=+0.0034  south=-0.0393  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0073  step_cost=-0.0200  complete=+0.0000
+
+[Stage n_sheep=6] training 1,500,000 steps
+           ... [6 sheep | 7,536,648 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [6 sheep | 7,636,648 steps | ret(last 50)=+34.50  win_sr=100%  cum_sr=100%]
+           ... [6 sheep | 7,736,648 steps | ret(last 50)=+31.01  win_sr=100%  cum_sr=100%]
+           ... [6 sheep | 7,836,648 steps | ret(last 50)=+33.27  win_sr=100%  cum_sr=100%]
+           ... [6 sheep | 7,936,648 steps | ret(last 50)=+34.81  win_sr=100%  cum_sr=100%]
+           ... [6 sheep | 8,036,648 steps | ret(last 50)=+32.69  win_sr=100%  cum_sr=100%]
+           ... [6 sheep | 8,136,648 steps | ret(last 50)=+31.36  win_sr=96%  cum_sr=99%]
+           ... [6 sheep | 8,236,648 steps | ret(last 50)=+33.71  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,336,648 steps | ret(last 50)=+34.71  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,436,648 steps | ret(last 50)=+31.89  win_sr=96%  cum_sr=99%]
+           ... [6 sheep | 8,536,648 steps | ret(last 50)=+35.63  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,636,648 steps | ret(last 50)=+35.92  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,736,648 steps | ret(last 50)=+33.70  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,836,648 steps | ret(last 50)=+33.46  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 8,936,648 steps | ret(last 50)=+35.12  win_sr=100%  cum_sr=99%]
+           ... [6 sheep | 9,036,648 steps | ret(last 50)=+34.21  win_sr=100%  cum_sr=100%]
+[Stage n_sheep=6] evaluating 30 eps
+[Stage n_sheep=6] sr=37%  mean_len=3137  mean_min_pen=1.8m  mean_act=1.37
+  failure modes: PARTIAL_4of6=14  SUCCESS=11  PARTIAL_3of6=5
+  reward/step: progress=+0.0654  alignment=+0.0085  south=-0.0392  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0146  step_cost=-0.0200  complete=+0.0117
+
+[Stage n_sheep=7] training 1,500,000 steps
+           ... [7 sheep | 9,043,976 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [7 sheep | 9,143,976 steps | ret(last 50)=+36.14  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,243,976 steps | ret(last 50)=+33.77  win_sr=98%  cum_sr=99%]
+           ... [7 sheep | 9,343,976 steps | ret(last 50)=+37.14  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,443,976 steps | ret(last 50)=+39.90  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,543,976 steps | ret(last 50)=+37.52  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,643,976 steps | ret(last 50)=+37.31  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,743,976 steps | ret(last 50)=+36.24  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,843,976 steps | ret(last 50)=+39.67  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 9,943,976 steps | ret(last 50)=+39.12  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 10,043,976 steps | ret(last 50)=+37.82  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 10,143,976 steps | ret(last 50)=+37.38  win_sr=100%  cum_sr=100%]
+           ... [7 sheep | 10,243,976 steps | ret(last 50)=+37.47  win_sr=98%  cum_sr=100%]
+           ... [7 sheep | 10,343,976 steps | ret(last 50)=+36.04  win_sr=98%  cum_sr=99%]
+           ... [7 sheep | 10,443,976 steps | ret(last 50)=+31.71  win_sr=98%  cum_sr=99%]
+           ... [7 sheep | 10,543,976 steps | ret(last 50)=+32.50  win_sr=96%  cum_sr=99%]
+[Stage n_sheep=7] evaluating 30 eps
+[Stage n_sheep=7] sr=0%  mean_len=4000  mean_min_pen=1.8m  mean_act=1.38
+  failure modes: PARTIAL_5of7=18  PARTIAL_6of7=7  PARTIAL_3of7=3  PARTIAL_4of7=2
+  reward/step: progress=+0.0533  alignment=+0.0069  south=-0.0356  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0124  step_cost=-0.0200  complete=+0.0000
+
+[Stage n_sheep=8] training 1,500,000 steps
+           ... [8 sheep | 10,551,304 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [8 sheep | 10,651,304 steps | ret(last 50)=+36.01  win_sr=96%  cum_sr=96%]
+           ... [8 sheep | 10,751,304 steps | ret(last 50)=+37.97  win_sr=96%  cum_sr=96%]
+           ... [8 sheep | 10,851,304 steps | ret(last 50)=+39.12  win_sr=100%  cum_sr=98%]
+           ... [8 sheep | 10,951,304 steps | ret(last 50)=+36.54  win_sr=96%  cum_sr=97%]
+           ... [8 sheep | 11,051,304 steps | ret(last 50)=+40.58  win_sr=100%  cum_sr=98%]
+           ... [8 sheep | 11,151,304 steps | ret(last 50)=+39.00  win_sr=98%  cum_sr=98%]
+           ... [8 sheep | 11,251,304 steps | ret(last 50)=+38.54  win_sr=98%  cum_sr=98%]
+           ... [8 sheep | 11,351,304 steps | ret(last 50)=+39.29  win_sr=100%  cum_sr=98%]
+           ... [8 sheep | 11,451,304 steps | ret(last 50)=+38.36  win_sr=100%  cum_sr=98%]
+           ... [8 sheep | 11,551,304 steps | ret(last 50)=+40.04  win_sr=100%  cum_sr=98%]
+           ... [8 sheep | 11,651,304 steps | ret(last 50)=+37.92  win_sr=100%  cum_sr=99%]
+           ... [8 sheep | 11,751,304 steps | ret(last 50)=+40.01  win_sr=98%  cum_sr=99%]
+           ... [8 sheep | 11,851,304 steps | ret(last 50)=+39.06  win_sr=100%  cum_sr=99%]
+           ... [8 sheep | 11,951,304 steps | ret(last 50)=+41.39  win_sr=100%  cum_sr=99%]
+           ... [8 sheep | 12,051,304 steps | ret(last 50)=+40.05  win_sr=100%  cum_sr=99%]
+[Stage n_sheep=8] evaluating 30 eps
+[Stage n_sheep=8] sr=60%  mean_len=2472  mean_min_pen=1.6m  mean_act=1.39
+  failure modes: SUCCESS=18  PARTIAL_6of8=9  PARTIAL_4of8=3
+  reward/step: progress=+0.0956  alignment=+0.0106  south=-0.0508  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0283  step_cost=-0.0200  complete=+0.0243
+
+[Stage n_sheep=9] training 1,500,000 steps
+           ... [9 sheep | 12,058,632 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [9 sheep | 12,158,632 steps | ret(last 50)=+41.35  win_sr=98%  cum_sr=98%]
+           ... [9 sheep | 12,258,632 steps | ret(last 50)=+41.63  win_sr=100%  cum_sr=99%]
+           ... [9 sheep | 12,358,632 steps | ret(last 50)=+41.85  win_sr=100%  cum_sr=99%]
+           ... [9 sheep | 12,458,632 steps | ret(last 50)=+42.49  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 12,558,632 steps | ret(last 50)=+40.87  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 12,658,632 steps | ret(last 50)=+39.09  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 12,758,632 steps | ret(last 50)=+42.23  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 12,858,632 steps | ret(last 50)=+41.00  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 12,958,632 steps | ret(last 50)=+43.02  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,058,632 steps | ret(last 50)=+41.13  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,158,632 steps | ret(last 50)=+41.02  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,258,632 steps | ret(last 50)=+42.88  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,358,632 steps | ret(last 50)=+46.16  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,458,632 steps | ret(last 50)=+44.69  win_sr=100%  cum_sr=100%]
+           ... [9 sheep | 13,558,632 steps | ret(last 50)=+44.49  win_sr=100%  cum_sr=100%]
+[Stage n_sheep=9] evaluating 30 eps
+[Stage n_sheep=9] sr=0%  mean_len=4000  mean_min_pen=1.5m  mean_act=1.39
+  failure modes: PARTIAL_8of9=26  PARTIAL_7of9=4
+  reward/step: progress=+0.0787  alignment=+0.0079  south=-0.0184  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0197  step_cost=-0.0200  complete=+0.0000
+
+[Stage n_sheep=10] training 1,500,000 steps
+           ... [10 sheep | 13,565,960 steps | ret(last 0)=+nan  win_sr=nan%  cum_sr=nan%]
+           ... [10 sheep | 13,665,960 steps | ret(last 50)=+43.38  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 13,765,960 steps | ret(last 50)=+43.26  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 13,865,960 steps | ret(last 50)=+46.91  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 13,965,960 steps | ret(last 50)=+45.36  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,065,960 steps | ret(last 50)=+45.37  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,165,960 steps | ret(last 50)=+44.30  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,265,960 steps | ret(last 50)=+43.83  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,365,960 steps | ret(last 50)=+47.09  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,465,960 steps | ret(last 50)=+41.32  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,565,960 steps | ret(last 50)=+45.30  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,665,960 steps | ret(last 50)=+45.36  win_sr=98%  cum_sr=100%]
+           ... [10 sheep | 14,765,960 steps | ret(last 50)=+41.83  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,865,960 steps | ret(last 50)=+44.40  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 14,965,960 steps | ret(last 50)=+45.89  win_sr=100%  cum_sr=100%]
+           ... [10 sheep | 15,065,960 steps | ret(last 50)=+42.49  win_sr=100%  cum_sr=100%]
+[Stage n_sheep=10] evaluating 30 eps
+[Stage n_sheep=10] sr=83%  mean_len=2243  mean_min_pen=1.5m  mean_act=1.40
+  failure modes: SUCCESS=25  PARTIAL_8of10=3  PARTIAL_7of10=2
+  reward/step: progress=+0.1387  alignment=+0.0150  south=-0.0437  compact=+0.0000  wall_touch=+0.0000  pen_bonus=+0.0428  step_cost=-0.0200  complete=+0.0372
+
+======================================================================
+  TRAINING SUMMARY
+======================================================================
+  n_sheep=1  sr=100%  len=  264  min_pen=  3.7m  act=0.45
+  n_sheep=2  sr= 77%  len= 1398  min_pen=  3.3m  act=0.97
+  n_sheep=3  sr= 97%  len= 1095  min_pen=  2.5m  act=0.95
+  n_sheep=4  sr= 57%  len= 2572  min_pen=  2.2m  act=1.28
+  n_sheep=5  sr=  0%  len= 4000  min_pen=  1.7m  act=1.36
+  n_sheep=6  sr= 37%  len= 3137  min_pen=  1.8m  act=1.37
+  n_sheep=7  sr=  0%  len= 4000  min_pen=  1.8m  act=1.38
+  n_sheep=8  sr= 60%  len= 2472  min_pen=  1.6m  act=1.39
+  n_sheep=9  sr=  0%  len= 4000  min_pen=  1.5m  act=1.39
+  n_sheep=10  sr= 83%  len= 2243  min_pen=  1.5m  act=1.40
+
+  Total time: 94.3 min
+  Artefacts:  runs/v3/
+  Plots:      runs/v3/success_rate.png, runs/v3/eval/