Позагалактична астрономія - Юрій Кудря 2016

РОЗДІЛ 4

ЦИФРОВІ ОГЛЯДИ НЕБА ТА АВТОМАТИЗОВАНІ СИСТЕМИ КЛАСИФІКАЦІЇ

4.7. Автоматизована морфологічна класифікація на базі ANN-алгоритму

Розробка алгоритмів автоматизованої класифікації розпочалася наприкінці 1980-х років, коли у збірнику праць конференції «Світ галактик» (Париж, 1988) з’явилося дві публікації Тоннат і Окамури та інших. У другій з них описуються можливості алгоритму, в якому використано так званий метод головних компонент (Principal components analysis, PCA). Автори відомого фотометричного каталогу ESO-Uppsala А. Лаубертс і Е. Валентійн запропонували алгоритм класифікації, названий ESO-AUTO.

Більш масштабні роботи з автоматизованої класифікації були проведені групою авторів (Сторрі-Ломбарді та інші (1992), Наїм та інші (1992 та наступні роки)) з використанням алгоритму штучних нейронних мереж (Artifical Neural Nets, ANN) для класифікації за числовим кодом Т морфологічного типу. Алгоритм було так названо, оскільки він є спрощеною моделлю діяльності людської центральної нервової системи. Досі його використовували в інших задачах, зокрема при класифікації точкових об’єктів каталогу IRAS(інфрачервоного астрономічного супутника), при розділенні зір та галактик тощо. Неастрономічні застосування цього алгоритму — розпізнавання рукописних літер.

Рис. 4.2. Класифікаційна схема на базі ANN-алгоритму

Числовий тип співвідноситься з габблівським типом згідно з табл. 2.1 з двома додатковими типами сі та сЕ.

Класифікаційну схему схематично зображено на рис. 4.2.

Кожний з вузлів цієї схеми є аналогом нейрона — нервової клітини, що є структурним елементом нервової системи. За вхідні приймалися 13 параметрів галактик, перелік яких поданий нижче:

•(B - R) — середній колір в області з поверхневою яскравістю у R-фільтрі від 20,5 до 26;

— показник Серсика в B-смузі;

де— великі діаметри еліпсів, які апроксимують ізофоти, в межах яких приймається 80 % та 50 % повного світла в Б-смузі;

— арктангенс абсолютного значення відношення середніх тангенціального та радіального градієнтів поверхневої яскравості, який є індикатором степеня асиметрії образу галактики;

— центральна поверхнева яскравість у В-смузі при апроксимації законом Серсика;

•lg(b/a) — логарифм відношення осей галактики;

— похибка еліптичної апроксимації В-ізофоти на поверхневій яскравості 23m/□";

•VR — градієнт профілю поверхневої яскравості у В-смузі на DBe;

, де— великі діаметри еліпсів, які апроксимують ізофоти, в межах яких приймається 26 % та 50 % повного світла в B-смузі;

— показник Серсика в R-смузі;

— середня поверхнева яскравість у B-смузі в межах 10" діаметра кругової апертури;

— поверхнева яскравість у B-смузі на ізофоті, що характеризується ефективним радіусом;

— поверхнева яскравість у R-смузі на ізофоті, що характеризується ефективним радіусом.

Вибір цих 13 параметрів є такий, як і в алгоритмі ESO-AUTO, порівнянному з ANN-алгоритмом. Вхідні 13 параметрів перетворювалися на 13 лінійних комбінацій, з яких підбором коефіцієнтів перетворення знаходять такі комбінації, за якими можна точніше розділити типи галактик. Ці коефіцієнти розраховують з використанням визначень морфологічного типу людиною-експертом у ході відпрацювання алгоритму. Вихідною інформацією є один з п’яти типів, показаних на схемі, а саме: E, S0, Sa + Sb, Sc + Sd, Irr. Тип знаходять мінімізацією евклідової норми відхилень типів від «стандартних» векторів типів, отриманих при «тренуванні» алгоритму.

Перша спроба навчити комп’ютер класифікувати галактики згідно з даним набором параметрів полягала у використанні зображень галактик з каталогу ESO-Uppsala Лаубертса—Валентійна. Всього було використано 5215 галактик. їх за типом у каталозі розподілили так: Е (-5 ≤ T < -2,5) — 466; S0 (-2,5 ≤ T < 0,5) — 851; Sa + Sb (0,5 ≤ T < 4,5) - 2403; Sc + Sd(4,5 ≤ T < 8,5) - 1132; Irr (8,5 ≤ T < 10) - 365.

Таблиця 4.2. Результати класифікації галактик каталогу ESO-Upp sala за алгоритмами ANN та ESO-AUTO

Тип



ANN





AUTO-ESO


E

SO

Sa + Sb

Sc + Sd

Irr

E

SO

Sa + Sb

Sc + Sd

Irr

E

203

77

25

1

5

197

87

17

5

5

S0

109

229

240

7

2

184

218

155

28

2

Sa + Sb

12

85

1281

218

15

106

12

791

664

38

Sc + Sd

1

4

304

415

36

22

11

24

631

72

Irr

0

0

53

69

126

22

9

31

42

144

Вибірка випадковим чином розбивалася на дві підвибірки: тренувальну («Train») та тестову («Test»), що містили відповідно 1700 і 3517 галактик.

На тренувальній вибірці було проведено 1 500 000 «тренувань», для галактик тестової вибірки визначався морфологічний тип і перевірялася ефективність методу порівняно з алгоритмом ESO- AUTO Лаубертса—Валентійна. Результати порівняння наведені у табл. 4.2. У першому стовпчику вказано тип за каталогом (визначення експертів), у другому рядку — комп’ютерне визначення за одним із алгоритмів.

З’ясувалося, що відсоток правильних визначень (точніше, визначень, що збігаються з визначеннями у каталозі, зробленими експертами), тобто відношення суми діагональних елементів таблиці до повної кількості галактик, для однієї й тієї самої вибірки у ANN-алгоритмі — 64 %, а в алгоритмі ESO- AUTO — 56 %. Як бачимо з таблиці, найбільше проблем виникає у розділенні ранніх типів та відділенні неправильних галактик від пізніх спіралей.

Вдосконалити метод можливо вибором оптимальних вхідних параметрів, кількості вузлів «нейронної мережі», знаходженням фундаментальних параметрів, що визначають габблівську послідовність, використанням для тренування алгоритмів більшої кількості зображень галактик.

Перед подальшим вдосконаленням алгоритму необхідно з’ясувати, наскільки збігаються визначення типів різними спостерігачами (щоб знати, що вимагати у машини). У 1995 році з’явилася стаття Наїма та інших за результатами шести відомих експертів-класифікаторів: Р. Бути, Г. Корвіна, Ж. де Вокулера, А. Дреслера, Д. Хухри та С. ван ден Берга.

Вибірка формувалася на базі екваторіального каталогу галактик APM та каталогу PGC. Були відібрані 835 галактик, яскравіших за В = 17m і більших за 1'. Пластинки (IIIa-J) із зображеннями отримували у широкій блакитно-зеленій смузі на Британському 48-дюймовому телескопі в обсерваторії Сайдінг-Спрінг (Австралія). Зображення сканували за допомогою APM-машини, сканування не погіршувало зображення: точність скана 1", на пластинці — 2". Як згодом з’ясувалося, пластинки дещо варіювали за щільністю зображення (у межах 0m,2). Були вибрані зображення з великими діаметрами, більшими за 1',2 (до ізофоти 24,5m/□"). Пластинки зі зображеннями галактик були скановані, й із електронних копій на лазерному принтері були виготовлені тверді копії. Експерти незалежно переглядали підготовлені копії з пластинок (GV — з екрана монітора). Вони мали виставити для кожної галактики числовий класифікаційний код Т.

За результатами визначення експертами морфологічного типу оцінювали середнє квадратичне відхилення σij визначень типу T та Tj i-м та j-м експертами:

Значення σij змінювалось від 1,3 до 2,3 у визначенні різних пар експертів. Припускалося, що помилки різних спостерігачів є незалежними. Квадрати помилок додаються, тобто

Наявність 15 рівнянь на шість невідомих потребує застосування методу мінімізації, за яким отримано такі оцінки σί: (1,0, 1,1, 1,2, 1,4, 1,5, 1,4), для кожного з експертів. Таким чином, найдосвідченішими «класифікаторами» одержано середньоквадратичну похибку 1,0—1,5 в одиницях числового коду типу галактики. Найбільші помилки допускалися при диференціації ранніх типів E0—SO/a та типів 6—9 (за межами першої габблівської класифікації). Цікаво, що розбіжності типів, визначених кожним із спеціалістів, і типів з каталогу RC3 є набагато більшими — від 1,3 до 1,9, а іноді майже у два рази (можливо це тому, що у каталозі RC3 є істотні помилки).

У 1995 році було опубліковано результати «тренування» ANN- алгоритму на APM-зображеннях саме тих 835 галактик, які досліджували експерти. На відміну від зображень, які вони використовували, зображення для машини попередньо обробляли: вилучали фонові зорі, очищали фон неба, стандартизували зображення за розміром (рис. 4.3).

Рис. 4.3. Приклад первісного та «очищеного» зображень галактик вибірки, що використовують при відпрацюванні ANN-алгоритму

Метод давав змогу визначати такі морфологічні параметри, як, наприклад, розмір балджу, кількість рукавів. Тут використовували 24 параметри, наведені нижче:

• еліптичність 1 - b / a;

• середня поверхнева яскравість;

• розмір балджу;

• відношення нахилів профілю поверхневої яскравості в середній та зовнішній частинах зображення;

• значення радіуса r, на якому досягається пік rI(r);

• дев’ять індексів концентрації, які визначаються значенням

α = 0,1, ..., 0,9 у формулі

• індекс концентрації як відношення радіусів, у межах яких досягається 75 % і 25 % світла;

• відношення світла рукавів і диска, усереднених у кільцях на певних відстанях від центру (шість значень);

• кількість рукавних сегментів;

• середня довжина рукавних сегментів;

• середня відносна інтенсивність рукавних сегментів.

Похибку визначення типу за ANN-алгоритмом знаходили за

формулою

де TANN — визначення типу за алгоритмом; T — усереднений тип, визначений експертами (в інтервалі [-5, 10]). З’ясовано, що середньоквадратична похибка σ автоматизованої класифікації становить 1,8 одиниць числового коду розширеної габблівської класифікації, що є порівнянним із похибками експертів. Найменші похибки машина дає для спіральних галактик типів 3—5.

Використання штучної «нервової системи» — великий крок вперед до автоматизованої класифікації. ANN — потужна система, що навчається класифікувати на базі відомих заздалегідь оцінок експертів. Але сама вона не продукує нову класифікацію. Зокрема, як добре відомо, габблівська та інші класифікації не придатні для застосування на великих червоних зміщеннях. Саме далекі галактики, для яких одержують дедалі більше зображень, потрібно класифікувати. Тому необхідно вирішити питання про нову об’єктивну класифікацію.

Зауважимо, що ANN-алгоритм використовують в астрономії також для визначення фотометричних червоних зміщень галактик. Наприклад, на вибірці з SDSS-DR1 знайдено, що похибка визначення z становить 0,023 у діапазоні 0 < z < 0,7 (Колінсон та Лахав, 2003).

У 2004 році розпочалася робота над проектом EFIGI (Extraction de Formes Idealisees de Galaxies en Imagerie) Центру опрацювання астрономічних даних TERAPIX (TraitementElementaire, Reduction et Analyse des PIXels de megacam) при Паризькому інституті астрофізики (Institut d’Astrophysique de Paris, IAP). Ео- ловна мета проекту — створити надійний та ефективний інструментарій алгоритмів і програм для автоматичного вимірювання та класифікації форм галактик за їх зображеннями для дуже великих цифрових оглядів неба. Діапазон довжин хвиль — від УФ (GALEX) до ІЧ (WIRCAM). Важливо враховувати редукцію, корекцію, аналіз похибок тощо. Опрацювання даних здійснюється дистанційно з віддалених сайтів потужностями кластера TERAPIX.

За цим проектом було створено каталог EFIGI 4458 близьких галактик з детальною морфологічною інформацією (Байлард А. та ін., 2011). Каталог призначено для «тренування» майбутніх автоматизованих систем класифікації галактик. Проаналізовано композитні зображення, отримані за зображеннями у п’яти SDSS- фільтрах. Крім морфологічного типу Габбла, кожна галактика каталогу описується 16 параметрами за п’ятьма їх градаціями. Нульова градація — це відсутність параметра, одинична — екстремальне значення параметра. Наведемо ці параметри: 1) inclination/elongation — нахил/витягнутість зображення; 2) multiplicity — кратність, ступінь населеності околу основної галактики; 3) contamination — забрудненість зображення (наприклад, зорями); 4) perturbation — збурення форми; 5) bulge/total ratio — відносний внесок балджу в повний потік від галактики; 6) arm strength — відносна «сила» спіральних рукавів (відносний внесок рукавів у загальний потік); 7) arm curvature — кривина рукавів; 8) rotation — напрямок обертання (за чи проти годинникової стрілки, переконливі чи сумнівні випадки); 9) visible dust — ступінь запиленості видимого зображення; 10) dust dispersion — ступінь клаптикуватості розподілу пилу; 11) flocculence — флокулентність, ступінь наявності областей HII; 12) hot spots — області з дуже високою поверхневою яскравістю; 13) bar lenght— довжина бара; 14) inner ring — внутрішнє кільце; 15) outer ring — зовнішнє кільце; 16) pseudo-ring — псевдо-кільце.

Каталог EFIGI розташовано на веб-сайті http://www.efigi.org.






Відвідайте наш новий сайт - Матеріали для Нової української школи - планування, розробки уроків, дидактичні та методичні матеріали, підручники та зошити