Hogyan értsünk könnyen a konvolúciós neurális hálózatokhoz a TensorFlowben

Konvolúciós neurális hálózatok építése a TensorFlowben

I. Bevezetés a konvolúciós neurális hálózatok (CNN) áttekintésébe

A. A CNN-ek meghatározása és fő jellemzői

A konvolúciós neurális hálózatok (CNN-ek) olyan mély tanulási architektúrák, amelyeket főként vizuális adatok, például képek és videók feldolgozására és elemzésére terveztek. A hagyományos neurális hálózatokkal ellentétben, amelyek a bemeneti adatot egy lapos pixelekből álló tömbként kezelik, a CNN-ek kihasználják a bemeneti adat térbeli és helyi korrelációját a konvolúciós, a szűrőzési és a teljesen összekapcsolt rétegek alkalmazásával.

A CNN-ek fő jellemzői a következők:

Helyi kapcsolódás: A konvolúciós rétegekben található neuronok csak kis területhez kapcsolódnak a korábbi rétegen, amit elnyerő mezőnek neveznek. Ez lehetővé teszi a hálózat számára a helyi jellemzők és mintázatok rögzítését a bemeneti adatban.
Megosztott súlyok: Ugyanaz a súlyhalmaz (szűrő) alkalmazódik az egész bemeneten, ami csökkenti a paraméterek számát, és javítja a modell hatékonyságát.
Transzlációs invariancia: A CNN-ek képesek ugyanazokat a jellemzőket felismerni, függetlenül a pozíciójuktól a bemeneten, ezáltal ellenállóvá teszik őket a térbeli transzformációkkal szemben.
Hierarchikus jellemkinyerés: A konvolúciós rétegek megtanulják a fokozatosan összetettebb jellemzők kinyerését, az alacsony szintű jellemzőktől, mint például élek és alakzatok, a magas szintű jellemzőkig, mint például objektumrészek és szemantikus fogalmak.

B. Összehasonlítás a hagyományos neurális hálózatokhoz

A hagyományos neurális hálózatokat, amelyeket teljesen kapcsolt vagy sűrű hálózatoknak is neveznek, a bemeneti adatot egy lapos pixelekből vagy jellemzőkből álló tömbként kezelik. Ez az megközelítés nem hatékonyan rögzíti a vizuális adatokban rejlő térbeli és helyi viszonyokat, például a képek esetében. Ezzel ellentétben a CNN-ek kifejezetten arra vannak tervezve, hogy kihasználják a bemenet térbeli struktúráját a konvolúciós és szűrőzési rétegek sorozatának alkalmazásával, amely lehetővé teszi hatékonyabb és hatékonyabb reprezentációk tanulását vizuális feladatokhoz.

C. A CNN-ek alkalmazása különböző területeken

A konvolúciós neurális hálózatokat széles körben alkalmazzák különböző területeken, többek között:

Kép osztályozás: Képek osztályozása előre meghatározott kategóriákba (például objektumok, jelenetek vagy tevékenységek felismerése).
Objektum felismerés: Több objektum azonosítása és lokalizálása egy képen belül.
Szemantikus szegmentáció: Osztálycímkének hozzárendelése minden képpontjához, lehetővé téve a pixelenkénti megértést.
Képgenerálás: Új képek generálása a bemeneti adatok vagy megtanult reprezentációk alapján.
Természetes nyelvfeldolgozás: A CNN-ek alkalmazása szöveges adatokra a hangulat elemzéshez, a szöveg osztályozásához és a gépi fordításhoz.
Orvosi képalkotás: Orvosi képek, például röntgenfelvételek, CT-felvételek és MRI-elemzése betegségdiagnosztikához és elváltozások detektálásához.
Autonóm járművek: A konvolúciós neurális hálózatok felhasználása úgynevezett érzékelési feladatoknál, mint az útpálya felismerése, a közlekedési táblák felismerése és akadályok elkerülése.

II. A TensorFlow: Egy erős mély tanulás keretrendszer

A. Áttekintés a TensorFlowról

A TensorFlow egy nyílt forráskódú mély tanulás keretrendszer, amelyet a Google Brain csapata fejlesztett ki. Széles körű ökoszisztémát biztosít a gépi tanulási és mély tanulási modellek építéséhez és üzembe helyezéséhez, beleértve a neurális hálózatok széles skálájának támogatását, optimalizációs algoritmusokat és üzembe helyezési platformokat.

A TensorFlow fő jellemzői a következők:

Rugalmas és hatékony számítás: A TensorFlow adatfolyam-gráf alapú megközelítést használ a számítások reprezentálására és végrehajtására, lehetővé téve a hatékony párhuzamosítást és optimalizálást.
Azonnali végrehajtás: A TensorFlow 2.x bevezette az azonnali végrehajtást, amely lehetővé teszi a műveletek azonnali kiértékelését, ami megkönnyíti a hibakeresést és a kód iterálását.
Pre-built rétegek és modellek nagy könyvtára: A TensorFlow gazdag kész rétegeket és modellarchitektúrákat biztosít, például konvolúciós, rekurzív és figyelmeztetés alapú rétegeket, amelyek könnyen testreszabhatók és kombinálhatók.
Skálázható és elosztott tanítás: A TensorFlow támogatja az elosztott tanítást több készüléken, beleértve a CPU-kat, GPU-kat és TPU-kat, hatékonyan nagyméretű modellek tanítását teszi lehetővé.
Üzembe helyezési rugalmasság: A TensorFlow modelljeit széles körű platformon, beleértve mobil eszközöket, webböngészőket és felhő környezeteket üzembe lehet helyezni, ami különböző valós alkalmazásokhoz teszi alkalmassá.

B. Telepítés és beállítás

A TensorFlow használatához telepítenie kell a könyvtárat a rendszerére. A telepítési folyamat függ az operációs rendszertől és a használni kívánt TensorFlow verziótól. Részletes telepítési utasításokat a hivatalos TensorFlow webhelyen találhat.

Az alábbiakban látható egy példa a TensorFlow telepítésére a pip segítségével, a Python csomagkezelő segítségével:

# Telepítsd a TensorFlow CPU verzióját
pip install tensorflow
 
# Telepítsd a TensorFlow GPU verzióját (ha rendelkezel ezzel kompatibilis NVIDIA GPU-val)
pip install tensorflow-gpu

Miután telepítette a TensorFlow-t, ellenőrizheti a telepítést az alábbi Python kóddal:

import tensorflow as tf
print(tf.__version__)

Ez ki kellene nyomtatnia a telepített TensorFlow verzióját.

C. A TensorFlow fő jellemzői és képességei

A TensorFlow széles körű jellemzők és képességek széles skáláját biztosítja, amelyek teszik roppant erőssé a mély tanulás keretrendszert. Néhány kulcsfontosságú jellemző a következő:

Azonnali végrehajtás: A TensorFlow 2.x azonnali végrehajtást vezetett be, amely lehetővé teszi a kód írását és hibakeresését egy intuitívabb, parancssori stílusban, hasonlóan ahogyan a rendes Python kódot írnád.
Keras API: A TensorFlow tartalmazza a Keras API-t, amely egy felhasználóbarát felületet biztosít a mély tanulási modellek építéséhez, tanításához és értékeléséhez.
Rugalmas modellépítés: A TensorFlow lehetővé teszi a testreszabott modellek létrehozását az alacsony szintű TensorFlow Layers API vagy a magasabb szintű Keras API segítségével, amely rugalmasságot és irányítást biztosít a modellarchitektúrához.
Hatékony számítás: A TensorFlow adatfolyam-gráf alapú megközelítést használ a számítások reprezentálására és végrehajtására, lehetővé téve a modellek hatékony párhuzamosítását és optimalizálását.
Elosztott tanítás: A TensorFlow támogatja az elosztott tanítást több készüléken, beleértve a CPU-kat, GPU-kat és TPU-kat, hatékonyan nagyméretű modellek tanítását teszi lehetővé.
Üzembe helyezési rugalmasság: A TensorFlow modelljeit széles körű platformon, beleértve mobil eszközöket, webböngészőket és felhőkörnyezeteket, üzembe lehet helyezni, ami különböző valós alkalmazásokhoz teszi be azokat.
Kiterjedt könyvtárak és eszközök: A TensorFlow gazdag ökoszisztémát biztosít könyvtárak és eszközök formájában, például a TensorFlow Lite mobil üzembe helyezéshez, a TensorFlow.js webes alkalmazásokhoz és a TensorFlow Serving modell szolgáltatáshoz.

III. Konvolúciós neurális hálózat építése a TensorFlowben

A. Szükséges könyvtárak importálása

A konvolúciós neurális hálózat építéséhez a TensorFlow következő könyvtárakat kell importálnia:

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.image import ImageDataGenerator

Ezek a könyvtárak a konvolúciós neurális hálózat építéséhez, tanításához és értékeléséhez szükséges funkcionalitást biztosítják.

B. Adatkészlet előkészítése

1. Adatkészlet letöltése és betöltése

Ebben a példában a CIFAR-10 adatkészletet fogjuk használni, ami egy széles körben használt mérce az kép osztályozási feladatokhoz. A CIFAR-10 adatkészlet 60 000 darab 32x32-es színes képből áll 10 osztályban, minden osztályban 6 000 képpel.

A CIFAR-10 adatkészlet letöltése a következő kóddal történhet:

(x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()

Ez letölti az adatkészletet, és felosztja azt tanító és tesztelő készletekre.

2. Képek előfeldolgozása

Mielőtt a képeket bejuttatnánk a CNN modellbe, elő kell dolgoznunk őket. Ez általában magában foglalja a méretezést, a pixelek értékeinek normalizálását és esetleg más transzformációk alkalmazását.

# A pixelek értékeinek normalizálása [0, 1] tartományba
x_train = x_train / 255.0
x_test = x_test / 255.0

3. Az adatkészlet felosztása tanuló, validációs és tesztkészletekre

Elterjedt szokás, hogy a tanuló készletet továbbra is felosztjuk tanuló és validációs készletekre a modell teljesítményének nyomon követése és a hiperparaméterek beállítása érdekében. Az alábbiakban egy példa látható arra, hogyan lehet ezt megtenni:

from sklearn.model_selection import train_test_split
 
# A tanuló készlet felosztása tanuló és validációs készletekre
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=42)

Most már rendelkezik az alábbi adatkészletekkel:

x_train, y_train: Tanuló készlet
x_val, y_val: Validációs készlet
x_test, y_test: Tesztkészlet

C. A CNN architektúrájának meghatározása

1. Konvolúciós rétegek

Egy konvolúciós neurális hálózat központi eleme a konvolúciós réteg, amely egy gyakorlatilag tanulható szűrőkből (vagy magokból) álló halmazt alkalmaz a bejövő képre. A konvolúciós művelet lokális jellemzőket, például éleket, alakzatokat és textúrákat nyer ki a bemenetről.

Az alábbi példában bemutatjuk, hogy hogyan lehet egy konvolúciós réteget definiálni a TensorFlowben:

model = Sequential()
model.add(Conv2D(32, (3, 3), activation='relu', padding='same', input_shape=(32, 32, 3)))
model.add(MaxPooling2D((2, 2)))

Ebben a példában az első konvolúciós rétegnek 32 szűrője van, mindegyiknek mérete 3x3 képpont. A 'relu' aktivációs függvényt használjuk, és a 'same' kitöltés biztosítja, hogy a kimeneti jellemzőtér ugyanakkora legyen, mint a bemenet. Az input_shape paraméter meghatározza a bemeneti képek méretét (32x32 képpont, 3 színkomponens).

Miután a konvolúciós réteghez hozzáadódik egy max pooling réteg, a tulajdonságtérképek downsample-ödnek, csökkentve a térbeli dimenziókat és a paraméterek számát.

2. Teljesen összekötött rétegek

A konvolúciós és pooling rétegek után a tulajdonságtérképek egydimenziós vektorrá alakulnak és továbbítódnak egy vagy több teljesen összekötött (sűrű) rétegbe. Ezek a rétegek magasabb szintű reprezentációkat tanulnak és végzik el a végső osztályozást.

model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(10, activation='softmax'))

Ebben a példában a lapított tulajdonságtérképek átadódnak egy 128 egységből álló teljesen összekötött rétegbe és egy ReLU aktivációs függvénybe, majd egy kimeneti rétegbe 10 egységgel (egy osztályra). és egy softmax aktivációs függvénnyel.

3. Modell összefoglalása és paraméterek megjelenítése

Az architektúra részleteit és a rétegenkénti paraméterek számát leíró táblázatot az alábbiak szerint nyomtathatjuk ki:

model.summary()

Ez a táblázatot ad vissza, amely bemutatja az egyes rétegek részleteit, beleértve a paraméterek számát és a kimeneti alakot.

D. A CNN modell összeállítása

A modell képzése előtt össze kell állítani a modellt a veszteségfüggvény, az optimalizáló és az értékelési metrikák meghatározásával.

model.compile(optimizer=Adam(lr=0.001),
              loss='categorical_crossentropy',
              metrics=['accuracy'])

Ebben a példában az Adam optimalizálót használjuk 0,001-es tanulási ráta mellett, a kategoriális keresztentrópia veszteségfüggvényt és az pontosság metrikát a modell teljesítményének értékelésére.

E. A CNN modell képzése

A CNN modellt a Keras API által biztosított fit() metódussal képezhetjük ki. Ez a metódus a képzési és validálási adatokat veszi inputként és a modellt meghatározott számú epizódig képezi ki.

history = model.fit(x_train, y_train,
                    epochs=20,
                    batch_size=32,
                    validation_data=(x_val, y_val))

Itt 20 epizóddal 32-es batch mérettel képezzük ki a modellt. A validation_data paraméter segítségével a modellt validációs adathalmazon értékeljük a képzés során.

A fit() metódus egy History objektumot ad vissza, amely információkat tartalmaz a képzési folyamatról, például a képzési és validációs veszteség és pontosság minden epizódra vonatkozóan.

A képzett modellt el is menthetjük későbbi használatra:

model.save('cifar10_cnn_model.h5')

Ez a modell architektúráját és súlyait menti a 'cifar10_cnn_model.h5' nevű fájlba.

F. A CNN modell kiértékelése

A modell képzése után kiértékelhetjük a teljesítményét a tesztadathalmazon a evaluate() metódus segítségével:

test_loss, test_acc = model.evaluate(x_test, y_test)
print('Teszt pontosság:', test_acc)

Ez a tesztveszteséget és a tesztpontosságot adja vissza, amelyek segítenek megállapítani, hogy a modell mennyire általánosítható ismeretlen adatokra.

A képzési és validációs görbék vizualizálásával is jobban megérthetjük a modell teljesítményét a képzés során:

import matplotlib.pyplot as plt
 
plt.figure(figsizeEbben az példában először betöltjük a előre kiképzett VGG16 modellt, amely az ImageNet adatkészleten lett kiképzve. Ezután befagyasztjuk a előre kiképzett modell súlyait, ami azt jelenti, hogy a súlyok nem lesznek frissítve a kiképzés során.
 
Ezután új rétegeket adunk hozzá a előre kiképzett modellre, beleértve egy flatten (kinyújtás) réteget, egy dense (sűrű) réteget 256 egységgel és ReLU aktivációval, valamint egy végső dense réteget 10 egységgel és softmax aktivációval (egy 10-osztályos osztályozási feladathoz).
 
Végül összeállítjuk a modellt az Adam optimalizálóval és a kategóriánkénti keresztentrópia veszteségfüggvénnyel, majd kiképezzük azt egy új képadatkészleten.
 
## Következtetés
 
Ebben a útmutatóban számos fontos fogalmat és technikát tárgyaltunk a mély tanulás területén, beleértve a konvolúciós neurális hálókat (CNN-k), a rekurzív neurális hálókat (RNN-eket) és a hosszú rövid távú memóriát (LSTM-et). Megvitattuk továbbá a transfer learning (átviteli tanulás) alkalmazását, amely hatékony eszköz lehet a előre kiképzett modellek kihasználására új problémák megoldásához.
 
Az útmutató során konkrét példákat és kódrészleteket adtunk, hogy illusztráljuk a tárgyalt fogalmakat. A példák végigkövetése során jobban megértheted, hogyan alkalmazhatod a mély tanulás technikáit a saját problémáidra és adatkészleteidre.
 
Amint folytatod a mély tanulás felfedezését és kísérletezését, ne felejtsd el, hogy ez egy aktív és gyorsan fejlődő terület, folyamatosan új technikák és architektúrák fejlődnek ki. Maradj kíváncsi, folyamatosan tanulj és ne félj új dolgokat kipróbálni - ez a legjobb módja a mély tanulás határainak feszegetésére és a lehetőségek kibővítésére.

Hogyan válasszuk ki a legjobb NVIDIA GPU-t mély tanuláshoz Hogyan finomítsunk LLaMA2-t gyorsan és könnyedén