Mocap.pl

MOTION CAPTURE

Przechwytywanie ruchu


 Przechwytywanie ruchu (Motion Capture )jest procesem polegającym na rejestrowaniu ruchu obiektów lub ludzi. Znalazł on swoje zastosowanie w armii, rozrywce, sporcie oraz medycynie, stosowany jest również przy uwierzytelnianiu widzenia komputerowego i w robotyce. W branży filmowej i gier wideo odnosi się do zapisywania ruchu aktorów i używania uzyskanych informacji do tworzenia animacji postaci w 2D lub 3D. Gdy proces skupia się na ruchach twarzy, palców, albo przechwytuje delikatne zmiany w mimice, często określa się go mianem przechwytywania performance (ang. performance capture). W wielu dziedzinach przechwytywanie ruchu często nazywane jest śledzeniem ruchu (ang. motion tracking), jednak w branży filmowej i gier, termin ten odnosi się bardziej do techniki zwanej match moving, umożliwającej realistyczne wprowadzenie obiektów grafiki komputerowej do nagranego już materiału filmowego.

W sesji przechwytywania ruchu, sprzęt rejestruje obrazy sposobu poruszania się jednego lub większej ilości aktorów wiele razy w ciągu jednej sekundy. Wczesne techniki korzystając z obrazu wielu kamer przygotowywały pozycje 3D, przechwytywanie ruchu często opiera się na nagrywaniu tylko ruchów aktora, pomijając otoczenie. Proces ten można porównać z techniką rotoscoping, którą Ralph Bakshi wykorzystywał w swoich animacjach jak „Władca Pierścieni” z 1978 i „American Pop” z 1981, gdzie filmowano ruch aktora, a następnie używano tego jako podstawy do tworzenia ręcznie rysowanych, klatka po klatce, animowanych postaci. Ruchy kamery również mogą zostać poddane procesowi przechwytywania ruchu, tak by uzyskać efekt wirtualnej kamery, która wykonuje ujęcie panoramiczne, odchyla się, albo wjeżdża na scenę, kierowana przez operatora, podczas występu aktora. System jest w stanie zarejestrować zarówno ruchy kamery, jak i te wykonywane przez aktora. To wszystko umożliwia stworzenie komputerowych postaci, obrazów i planu, umieszczonych w perspektywie, w taki sposób jak nagranie filmowe stworzone przy użyciu kamery. Komputer analizuje dane i wyświetla ruchy aktorów,
dopasowując do tego określone pozycje kamer w obszarze planu. Proces ten różni się od match moving, który bazuje na nagranym wcześniej materiale i na jego podstawie odtwarza ruchy kamery.

Plusy
Przechwytywanie ruchu oferuje wiele zalet, którymi przewyższa tradycyjne komputerowe animacje 3D:

  • Jest dużo szybsze w produkcji i pozwala na uzyskanie obrazu czasu rzeczywistego. W branży rozrywkowej może pozwolić na ograniczenie kosztów tworzenia animacji opierającej się na ramce kluczowej, przykładem której może być technika Hand Over. 
  • To jak długie i złożone będzie nagranie nie ma takiego wpływu na pracę, którą trzeba włożyć w przygotowanie materiału, tak jak w przypadku tradycyjnych technik. Pozwala to na wykonywanie testów używając różnych konfiguracji i sprawia, że tworzenie nowych postaci jest ograniczone tylko przez talent aktora
  • Skomplikowane oraz realistyczne ruchy, takie jak te wytworzone poprzez interakcje ciała w wyniku poruszania się (secondary motion), waga oraz szczegółowa fizyka postaci mogą być łatwo i precyzyjnie odtworzone
  • Ilość animacji, która może zostać wyprodukowana w przeciągu określonego czasu jest ogromna w porównaniu z tradycyjnymi technikami animacji. Przyczynia się to zarówno do obniżenia kosztów produkcji jak i ułatwia terminowe wykonanie zadania. 
  • Istnieje możliwość pojawienia się na rynku alternatywnych twórców, którzy dostarczą darmowe oprogramowanie i obniżą koszty produkcji

Minusy:

  • Wymagany jest specjalistyczny sprzęt i oprogramowanie
  • Koszty wymaganych oprogramowania, sprzętu oraz personelu mogą być zbyt wyśrubowane dla małych produkcji
  • System przechwytywania może mieć konkretne wymagania co do przestrzeni, w której zostanie zainstalowany, związane z polem widzenia kamery i zakłóceniami magnetycznymi.
  • Gdy pojawią się problemy, to łatwiej jest ponownie nakręcić scenę, aniżeli edytować zapisane dane. Tylko kilka systemów pozwala na odtwarzanie danych w czasie rzeczywistym tak, aby można było zdecydować czy ujęcie wymaga powtórzenia.
  • Dodatkowa edycja danych jest możliwa dopiero później, początkowy rezultat procesu daje ograniczony efekt
  • Ruch sprzeczny z prawami fizyki nie może być przechwycony
  • Tradycyjne techniki animacji, polegające na zwróceniu szczególnej uwagi na tzw. fazy antycypacji i następstwa ruchu, ruchy typu secondary motion oraz edycja sylwetki postaci, dla przykładu przy użyciu techniki squash and stretch mogą zostać użyte dopiero w późniejszej części procesu.
  • Jeżeli komputerowy model postaci różni się proporcjami od aktora, którego ruch został przechwycony, mogą wystąpić problemy. Dla przykładu, gdy postać z kreskówki, ma nienaturalnie duże dłonie, mogą one przecinać ciało postaci, jeżeli aktor nie zwrócił na to wystarczającej uwagi podczas nagrywania ruchu.

 

Zastosowanie

Przy tworzeniu gier wideo często wykorzystuje się możliwości przechwytu ruchu do tworzenia animacji sportowców, postaci wykonywających sztuki walki i innych. Jest to w praktyce odkąd na ATARI Jaguar pojawiła się gra „Highlander: The Last of the MacLeods” w 1995 roku. „Królewna Śnieżka i siedmiu krasnoludków” korzystała z wczesnej wersji techniki przechwytu ruchu. Aktorzy odgrywali sceny i byli filmowani. Następnie rysownicy używali pojedynczych klatek jako pomocy przy tworzeniu swoich rysunków. Przechwytu ruchu używa się w filmach dla uzyskania efektów specjalnych generowanych w
sposób komputerowy oraz by uzyskać w pełni wygenerowane komputerowo postacie takie jak Gollum, Mumia, King Kong, Davy Jones z „Piratów z Karaibów”, przedstawiciele rasy Na'vi występujący w filmie „Avatar” czy Clu z filmu „Tron: Dziedzictwo”.  
„Sinbad: Beyond the Veil of Mists”, film nie znany szerokiej publiczności, był pierwszym obrazem, którego produkcja opierała się głównie na przechwycie ruchu, chociaż przy jego tworzeniu pracowało również wielu rysowników. „Final Fantasy” z 2001 roku, było pierwszym filmem, który trafił do szerokiej dystrybucji, zrobionym głównie przy użyciu techniki przechwytu obrazu.
„Władca Pierścieni: Dwie wieże”, był pierwszym filmem, który wykorzystał system przechwytywania ruchu w czasie rzeczywistym. Gdy aktor Andy Serkins odgrywał na planie postać Golluma / Smeagola zapis jego ruchu był automatycznie przesyłany do komputera, gdzie na jego postać nakładano komputerowo wygenerowaną skórę monstrum z dzieła Tolkiena. Dwa z trzech nominowanych w 2006 roku do Oscara filmów w kategorii najlepszy pełnometrażowy film animowany („Straszny dom” oraz zwycięzca – „Happy Feet: Tupot małych stóp”) korzystały z przechwytywania ruchu, tylko „Auta” stworzone przez studio Disney Pixar były stworzone bez jego użycia. W napisach końcowych filmu „Ratuj”, wyprodukowanych przez to samo studio, pojawia się oznaczenie „100% Animacji – Brak przechwytywania obrazu!”. 

Przechwytywanie zaczęło być używane powszechnie do produkcji filmów, które stawiają sobie za cel stworzenie symulacji lub zbliżenie się do odgrywanego na żywo kina, stwarzając niemal fotorealistyczne modele cyfrowych postaci. W „Ekspresie polarnym” użyto przechwytywania ruchu by umożliwić Tomowi Hanksowi odgrywanie wielu różnych postaci (którym również udzielił głosu). W adaptacji sagi „Beowulf”, która ukazała się w 2007 roku, użyto animowanych cyfrowych postaci, których wygląd częściowo oparty był na aktorach, którzy odgrywali ich ruchy i podkładali głosy. „Avatar” w reżyserii Jamesa Camerona
wykorzystał wspominaną technikę by utworzyć rasę Na’vi zamieszkującą planetę Pandora.

Disney przy jej użyciu wyprodukował „Opowieść wigilijną” w reżyserii Roberta Zemeckisa. W 2007 roku Disney przejął wytwórnie Zemeciska, ImageMovers Digital (która produkowała filmy z użyciem techniki przechwytywania ruchu), lecz po serii niepowodzeń, w 2011 roku, wytwórnia została zamknięta. Telewizja opierała się w pełni na technice przechwytu ruchu przy produkcji takich seriali jak „Laflaque” w Kanadzie, „Sprookjesboom” i „Cafe de Wereld” w Holandii oraz „Headcases” w Wielkiej Brytanii.

Wirtualna rzeczywistość i rzeczywistość rozszerzona pozwalają na interakcję użytkowników z cyfrowym światem w czasie rzeczywistym. Może okazać się to użyteczne w treningowych symulatorach, testach percepcji wzrokowej oraz podczas przygotowywania wirtualnych spacerów w środowisku 3D. Technologia przechwytywania ruchu jest również często używana w systemach, które w czasie rzeczywistym kontrolują komputerowe postacie przy pomocy ludzkich ruchów.

Przechwyt ruchu swoje główne zastosowanie w medycynie znajduje w analizie chodu. Technika ta pozwala lekarzom zbadać pod wieloma względami ruch pacjenta, często wysyłając informacje bezpośrednio do oprogramowania od razu zajmującego się ich analizą. Podczas filmowania „Avatara”, stworzonego przez Jamesa Camerona wszystkie sceny korzystające z przechwytu ruchu zostały nakręcone w czasie rzeczywistym przy pomocy oprogramowania Autodesk Motion Builder, które pozwoliło na stworzenie ekranu podglądowego umożliwiającego Cameronowi i aktorom zobaczenie efektu już po nałożeniu animacji ciał bohaterów, dzięki czemu możliwe było przygotowywanie filmu od razu w taki sposób, w jaki miał być on zaprezentowany widowni. Metoda ta pozwoliła na dokładniejsze przyjrzenie się efektom, co nie było możliwe podczas oglądania samych szkiców wirtualnych postaci. Reżyser był tak dumny z efektu jaki osiągnął, że zaprosił na plan Stevena Spielberga i Georga Lucasa, by na żywo mogli zobaczyć system w akcji.

W „Avengers 3D” Mark Buffalo skorzystał przechwytu ruchu by mógł zagrać postać Hulka, która wcześniej była tworzona na bazie komputerowo generowanych animacji (ang. Computer-generated imagery – CGI)
Metody i systemy Przechwytywanie ruchu, lub jak kto woli, śledzenie ruchu, wywodzi się od urządzenia służącego do fotogrametrii służącego w badaniach biomechaniki w latach 70 i 80, później, stopniowo, zaczęto go używać w edukacji, szkoleniach, sporcie, a teraz wraz z rozwojem technologii, pojawiło się w komputerowej animacji dla telewizji, kina oraz gier wideo. Aktor, którego ruchy mają zostać przechwycone, zostaje wyposażony w specjalne znaczniki, które umieszcza się w pobliżu jego stawów, służące do zapisu ruchów jego ciała. Używa się do tego znaczników akustycznych, inercyjnych, używających diod elektroluminescencyjnych (LED), magnetycznych i odbijających, albo też kombinacji różnych typów. Są one śledzone z częstotliwością przynajmniej dwa razy większą od częstotliwości poruszania się obiektu, który planuje się utworzyć, po to by móc zapewnić pośrednie pozycje między kolejnymi ruchami. Rozdzielczość, zarówno kątowa jak i czasowa, gra istotną rolę, ponieważ rozmazany
obraz sprawia prawie tak samo duże problemy jak niska rozdzielczość. 

 


Systemy optyczne

Systemy optyczne wykorzystują dane przechwycone z czujników obrazu do określenia pozycji 3D obiektu w przestrzeni pomiędzy jedną lub większą ilością kamer wyskalowanych w taki sposób, by stworzyć nakładającą się projekcję. Dane przeważnie pobierane są za pomocą specjalnych znaczników umieszczonych na ciele aktora, jednak najnowsze systemy są w stanie uzyskać dane śledząc określone wcześniej indywidualnie dla każdej osoby części ciała. Śledzenie dużej liczby aktorów lub na dużym obszarze, jest możliwe przy dodaniu większej ilości kamer. Systemy te są w tanie wyprodukować dane w trzech stopniach swobody dla każdego pojedynczego znacznika, informacja na temat rotacji uzyskiwana jest przy pomocy określania względnej pozycji trzech lub większej liczby znaczników, np. ramię, łokieć oraz nadgarstek określające pozycję łokcia. Najnowsze hybrydowe systemy korzystają zarówno z czujników inercyjnych jak i optycznych, by zapobiec ich nachodzeniu na siebie, zwiększyć liczbę użytkowników i ulepszyć proces śledzenia, tak by nie trzeba było później ręcznie edytować danych.

 

Bierne znaczniki

Bierny system optyczny korzysta ze znaczników pokrytych odblaskowym materiałem, który służy do odbijania światła wytwarzanego obok obiektywu kamery. Wartość progowa kamery może być dopasowana w taki sposób, że tylko jasne odbijające znaczniki będą rejestrowane, a skóra i kostium zostaną pominięte. Centroid znacznika jest ustalany jako punkt w obrębie  dwuwymiarowego obrazu, który zostaje pobrany. Obiekt ze znacznikami umiejscowionymi w odpowiednich pozycjach używany jest do wyskalowania kamer, określenia ich pozycji i pomiaru zniekształceń obrazu każdej z nich. Trójwymiarowy obraz można osiągnąć, gdy dwie kamery widzą jeden znacznik. Typowy system składa się od 2 do 48 kamer. Systemy z 300 i większą ilością kamer są tworzone by uniknąć problemu wymieszania się znaczników.
Dodatkowe kamery są wymagane by w pełni pokryć obszar dookoła jednego lub kilku aktorów.

Sprzedawcy oferują oprogramowanie, które umożliwia zmniejszenie problemu mieszania się znaczników, które wynika z tego, że wszystkie wyglądają w identyczny sposób. W przeciwieństwie do systemów aktywnych i magnetycznych, systemy bierne nie wymagają od użytkowników ubierania elektronicznego wyposażenia. Zamiast tego, umieszcza się na ich ciałach setki gumowych kulek, które muszą być wymieniane co jakiś czas. Znaczniki przeważnie przyczepione są bezpośrednio do skóry (tak jak w biomechanice) lub na rzepach do pokrywającego całe ciało kostiumu z spandeksu lub lycry, specjalnie przygotowanego do
tych celów. System tego typu jest w stanie przechwycić duże ilości znaczników w prędkości przeważnie około 120 do 160 klatek na sekundę, jednak przy zmniejszeniu rozdzielczości i śledzeniu mniejszego obszaru liczba ta może wzrosnąć nawet do 10000 klatek na sekundę. 

 

Aktywne znaczniki

Aktywne znaczniki optyczne dokonują pomiarów za pomocą oświetlania każdej diody LED po kolei lub kilku na raz przy pomocy oprogramowania służącego do określania ich pozycji, co w pewien sposób przypomina astronawigacje. Zamiast odbijać światło, znaczniki są skonstruowane w ten sposób, by emitować swoje własne. Dzięki temu, że prawo zależności natężenia dostarcza ¼ energii na dwa razy dłuższą odległość, można zwiększyć odległość i obszar przechwytywania. 

Serial telewizyjny „Gwiezdne Wrota” produkowany był przy użyciu systemu aktywnych znaczników, które umożliwiły przechwytywanie ruchu aktora poruszającego się wśród różnych elementów scenografii, co byłoby trudne do osiągnięcia używając innych systemów. Industrial Light & Magic (ILM) korzystało z aktywnych znaczników przy tworzeniu efektów specjalnych dla filmu „Van Helsing”, by móc przedstawić harpie na bardzo dużym planie, podobnej metody użyła inna firma zajmująca się efektami specjalnymi, Weta, przy kręceniu filmu „Geneza planety małp”. Identyfikacja znaczników może odbywać się sekwencyjnie z jednoczesnym ich zasilaniem, kosztem ilości klatek. Możliwość identyfikacji znaczników w ten sposób jest przydatna podczas korzystania z systemu w czasie rzeczywistym. Alternatywnym sposobem jest identyfikacja znaczników za pomocą algorytmów, co wymaga jednak dodatkowego przetwarzania danych.

 

Modulowane czasowo aktywne znaczniki

Systemy aktywnych znaczników mogą być w późniejszym etapie poprawiane poprzez wyświetlanie pojedynczych znaczników lub śledzenie wielu z nich w określonym momencie i modulacje amplitudy oraz szerokości w celu ich identyfikacji. 12 megapikselowa rozdzielczość kątowa modulowanych systemów pokazuje bardziej subtelne ruchy niż 4 megapikselowy optyczny system, ponieważ posiada większą rozdzielczość kątową i 
czasową. Reżyserzy mogą zobaczyć aktorów w czasie rzeczywistym i zobaczyć rezultaty przechwytu ruchu na komputerowo wygenerowanej postaci. Indywidualne oznaczenie każdego ze znaczników pozwala ograniczyć mieszanie się znaczników i dostarcza bardziej przejrzyste dane niż inne technologie. Diody LED dzięki przetwarzaniu pokładowym i radiowej synchronizacji pozwalają na przechwytywanie ruchu pod gołym niebem przy świetle słonecznym, przechwytując 120 do 960 klatek na sekundę dzięki migawce o wysokiej prędkości. Komputerowe przetwarzanie modulowanych oznaczeń znaczników pozwala na wyniki wymagające mniej ręcznego porządkowania i filtrowania za niższą cenę. Większa dokładność i rozdzielczości wymagają dłuższego przetwarzania w porównaniu do biernych technologii, ale jest ono wykonywane przez kamerę, która korzystając z przetwarzania podpikseli lub centroidu zapewnia zarówno większą rozdzielczość jak i prędkość. Systemy tego rodzaju kosztują przeważnie $20,000 za zestaw ośmiu kamer oraz z 120 herzowego systemu 12 megapikselowej rozdzielczości przestrzennej dla jednego aktora.

 

Niewidoczne półaktywne znaczniki

Można próbować odejść od tradycyjnego podejścia bazującego na kamerach o wysokiej szybkości. Systemy takie jak Prakash korzystają z niedrogich projektorów LED o wysokiej prędkości. Specjalnie przygotowane projektory podczerwieni składające się z wielu diod LED optycznie kodują przestrzeń. Zamiast starych odblaskowych znaczników lub tych emitujących diody LED, system korzysta z światłoczułych znaczników do odbierania sygnałów optycznych. Poprzez umieszczanie fotokomórek w punktach na scenie, uzyskuje się nie tylko lokalizację każdego z punktów, ale również informacje na temat ich własnego
kierunku, oświetlenia i odbijanego światła. System Kinect Microsoftu, który ukazał dla konsoli Xbox 360, wyświetla niewidzialny promień podczerwieni służący do dokładnego rozpoznawania ruchu użytkownika, przez co pozwala na interakcję użytkownika z konsolą. Wspominane znaczniki działają w warunkach naturalnego oświetlenia i pozostają niewidoczne po doczepieniu ich do stroju lub innych obiektów. System obsługuje nieograniczoną ilość znaczników w scenie, a każdy z nich jest indywidualnie oznaczony co pozwala uniknąć problemów z ponownym zapisem. Ponieważ system nie posługuje się
kamerami o wysokiej szybkości, nie wykorzystuje szybkiego przepływu obrazu i dlatego też wymaga dużo mniejszej przepustowości danych. Znaczniki dostarczają również informacji na temat oświetlenia, co może być użyteczne w ustawianiu oświetlenia sceny, gdy umieszcza się syntetyczne elementy. Technika wydaje być się idealna jeżeli chodzi o przechwytywanie ruchu na planie lub emitowanie w czasie rzeczywistym wirtualnego planu, lecz musi zostać jeszcze sprawdzona.

 

Technika niewykorzystująca znaczników

Pojawiające się techniki i badania w dziedzinie obrazu komputerowego prowadzą do szybkiego rozwoju przechwytywania ruchu, które pomija wykorzystanie znaczników. Systemy tego typu rozwijane w miejscach takich jak Stanford University, University of Maryland, Massachusetts Institute of Technology (MIT) i Max Planck Institute nie wymagają od aktorów by ubierali specjalny ekwipunek do przeprowadzania procesu śledzenia. Specjalne komputerowe algorytmy są projektowane by umożliwić systemowi wielopoziomową analizę optyczną i zidentyfikować ludzkie kształty, rozbijając je na części składowe by później
je śledzić. Na rynku pojawiły się komercyjne produkty służące do przechwytu, które nie wykorzystują znaczników, takie jak systemy stworzone przez Organic Motion i Xsens. 

 

Systemy nieoptyczne

Inercyjna technologia przechwytu ruchu opiera się na miniaturowych czujnikach inercyjnych, biomechanicznych modelach i algorytmach syntezy. Informacje na temat ruchu czujników inercyjnych przekazywane są bezprzewodowo do komputera, gdzie ruch jest zapisywany lub oglądany. Większość systemów inercyjnych używa żyroskopów do mierzenia tempa rotacji. Rotacje te przekładane są na szkielet widoczny na ekranie komputera. Podobnie jak w przypadków znaczników optycznych, im więcej żyroskopów tym bardziej trafne dane. Nie potrzeba zewnętrznych kamer, emiterów czy znaczników, by określać ruchy względne,
jednak są one potrzebne gdy chce się określić bezwzględne położenie użytkownika. Inercyjny system przechwytywania ruchu jest w stanie uchwycić wszystkie sześć stopni swobody ruchu ciała w czasie rzeczywistym i może udzielić częściowych informacji co do kierunku, jeżeli zawiera magnetyczny czujnik postawy. Jednakże, systemy tego typu charakteryzują się dużo mniejszą rozdzielczością i są wrażliwe na zakłócenia elektromagnetyczne. Do plusów systemów inercyjnych należy fakt, że nie potrzebują rozkładania, są przenośne i są w stanie przechwytywać ruch z dużych obszarów. Wśród minusów trzeba wymienić „dryfowanie” (ang. „floating”), kiedy postać wygląda jak marionetka na sznurkach, mniejszą dokładność co do pozycji oraz zmiany pozycji, które mogą się zwiększać wraz z dłuższym czasem
procesu. Systemy tego typu są podobne do kontrolerów Wii, ale są dużo bardziej czułe, mają większą rozdzielczość i częstszą aktualizację danych. Są w stanie dokładnie zmierzyć pozycje względem ziemi, co do stopnia. Popularność systemów inercyjnych zwiększa się wśród niezależnych twórców gier, głównie dlatego, że są proste i szybkie w obsłudze. Dostępna jest duża ilość systemów tego typu tworzonych przez różnych producentów, ceny wahają się od $5,000 do 80,000. Jak na ironię najtańsze systemy używają nowszych chipów i czujników oraz są bezprzewodowe, co sprawia, że są lepsze od tych następnej generacji.

 

Ruch mechaniczny

Systemy przechwytywania ruchu mechanicznego polegają na dokładnym śledzeniu kątów położenia stawów i często nazywane są systemami przechwytywania ruchów szkieletu zewnętrznego, z powodu w jaki czujniki przyczepione są do ciała. Aktorzy do swych ciał przyczepiają szkieleto-podobną konstrukcję i gdy się poruszają, wraz z ich ciałem przesuwają się przyczepione elementy, które mierzą ich ruch. Systemy mechanicznego przechwytywania ruchu działają w czasie rzeczywistym, kosztują relatywnie mało, nie nachodzą na siebie, są bezprzewodowe i nie mają ograniczeń co do powierzchni na, której dokonuje się przechwytu. 

Są to zazwyczaj sztywne konstrukcje połączonych ze sobą prostych metalowych lub plastikowych prętów z potencjometrami, które znajdują się na stawach. Kostiumy tego typu kosztują przeważnie od $25,000 do $75,000 plus system pozycjonowania bezwzględnego.

 

Systemy magnetyczne

Systemy magnetyczne kalkulują pozycję i orientację przy pomocy strumienia magnetycznego wydostającego się z trzech ortogonalnych cewek zarówno na nadajniku jak i na każdym odbiorniku. Relatywna intensywność napięcia lub prądu cewkach umożliwia tym systemom na ustalenie zarówno odległości jak i kierunku poprzez szczegółowe mapowanie obszaru, w którym odbędzie się przechwytywanie. Czujnik dostarcza zapis ruchu w sześciu punktach swobody (Six degrees of freedom 6DOF), przy użyciu dwóch znaczników, na dolnym i górnym ramieniu, by uzyskać kąt i pozycje łokcia , a nie trzech tak jak w przypadku systemów optycznych. Praca znaczników nie jest zakłócana przez niemetalowe elementy, ale może być ona zakłócana przez magnetyczne i elektryczne zakłócenia wywołane przez metalowe obiekty znajdujące się w pobliżu takie jak pręty zbrojeniowe lub instalacje elektryczne, które mają wpływ na pole magnetyczne, oraz źródła prądu takie jak monitory, oświetlenie, kable i komputery. Czujnik odpowiada nieliniowo, w szczególności na granicy obszaru przechwytu. Przewody podłączone do czujników uniemożliwiają wykonywanie bardziej skomplikowanych ruchów. Obszar przechwytywania dla systemów magnetycznych jest zdecydowanie mniejszy niż dla systemów optycznych. Wśród systemów magnetycznych rozróznia sę systemy „AC” i „DC”, te pierwsze używają pulsu stałego, a te drugie
przemiennego. 

 

Przechwytywanie ruchu twarzy

Większość tradycyjnego sprzętu do przechwytywania ruchów twarzy wykorzystuje od 32 do 300 znaczników, korzystając albo z systemu aktywnego lub biernego. Użycie jest ograniczane przez długi czas instalacji znaczników, skalowanie pozycji oraz przetwarzanie danych. Co więcej, technologia ma również ograniczoną wielkość rozdzielczości i wydajność na niskim poziomie.

Przechwytywanie ruchów twarzy w wysokiej jakości, zapewnia jakość kolejnej generacji i jest używane do nagrywania bardziej skomplikowanych ruchów twarzy w celu uchwycenia emocji. Przechwytywanie twarzy można podzielić na różne kategorie, takie jak, tradycyjne przechwytywanie twarzy, przechwytywanie topologii twarzy aktora, oraz systemy zabezpieczenia dostępu.

Dwie główne techniki opierają się na stacjonarnych systemach, z dużą ilością kamer przechwytujących obraz twarzy pod różnymi kątami używając do tego oprogramowania takiego jak „stereo mesh solver” z OpenCv do tworzenia siatek 3D, tablic świetlnych, jak również do dokonywania obliczeń na liniach powierzchni przy pomocy manipulacji źródłem światła i pozycją kamery. Techniki te zdają się być ograniczane tylko i wyłącznie przez rozdzielczość kamery, rozmiar obiektu i liczbę kamer. Jeżeli twarz użytkownika zajmuje 50 procent obszaru pracy kamery i posiada ona rozdzielczość w megapikselach,  wtedy można zarejestrować ruchy na twarzy nawet wielkości mniejszej niż jeden milimetr. Ostatnie prace nad technologią skupiają się głównie na zwiększaniu ilości klatek na sekundę oraz opracowaniu techniki, która pozwoliłaby przenosić ruchy na komputerowo wygenerowane twarzy, zamiast stwarzać siatek 3D twarzy aktora, na których przedstawiona jest mimika. Pozycjonowanie przy użyciu częstotliwości radiowej (ang. Radio frequency, RF) Systemy pozycjonujące przy pomocy częstotliwości radiowej (RF) stają się opłacalne, gdyż urządzenia emitujące fale radiowe o większej częstotliwości pozwalają na większą precyzje niż starsze technologie tego typu. Prędkość światła wynosi 30cm na jedną nanosekundę (bilionowa sekundy), więc 10 gigahertzowy sygnał RF pozwala na dokładność co do 3cm.

Poprzez pomiar amplitudy co do jednej czwartej fali, można zmniejszyć rozdzielczość do 8mm. By osiągnąć rozdzielczość jaka charakteryzuje systemy optyczne, potrzebna jest częstotliwość 50 gigahertzów, która jest praktycznie wielkości linii wzorku i blokuje się tak jak systemy optyczne. Wielościeżkowość sygnału i jego ponowny przepływ mogą spowodować kolejne problemy, jednak technologie tego typu będą idealne do śledzenia dużo większych obszarów z rozsądną dokładnością, ponieważ wymagana rozdzielczość na odległości 100 metrów nie musi być tak duża. Wielu naukowców nie wierzy, że częstotliwość radiowa kiedykolwiek będzie na tyle dokładna by można było wykorzystać ją do przechwytywania ruchu. Alternatywne systemy Została wymyślona alternatywna metoda w której aktor ma nieograniczony obszar poruszania
się używając obrotowej kuli, podobnej do piłki chomika, która zawiera wewnętrzne czujniki zapisujące zmiany kątów, w taki sposób, że nie potrzebne są zewnętrzne kamery ani żaden inny sprzęt. Mimo, że ta technologia mogłaby doprowadzić do zmniejszenia kosztów przechwytywania ruchu, to zwykła kula jest w stanie nagrać tylko ciągły ruch w jednym kierunku. By nagrać więcej, osoba w kuli musiałaby ubrać dodatkowe czujniki. 

Inna alternatywna metoda korzysta z platformy sześciu stopni swobody ruchu (6DOF) z zintegrowaną wielokierunkowym kołowrotem, która daje efekt taki jak optyczne przechwytywanie ruchu w największej rozdzielczości. Osoba, której ruch jest przechwytywany, może poruszać się w nieograniczonej przestrzeni, na różnych, niejednolitych terenach. Systemu używa się w medycznej rehabilitacji dla treningu
równowagi, badaniach biomechanicznych i wirtualnej rzeczywistości.

 

Face Tracking

Śledzenie ruchów twarzy

 

Przechwyt Ruchów Twarzy (ang. Facial Motion Capture), to proces podczas którego przy pomocy kamer, oraz skanerów laserowych ruchy twarzy zapisuje się w postaci cyfrowej bazy danych. Zapisane dane mogą następnie zostać użyte do stworzenia grafiki komputerowej, komputerowych animacji do filmów i gier, czy wirtualnych awatarów. Dzięki temu, że ruch wirtualnych postaci oparty jest na przechwycie mimiki prawdziwej ludzkiej twarzy, animacja komputerowa jest bardziej realistyczna i wyróżnia się od tych, które stworzone są w tradycyjny - ręczny sposób. Zapisany Face Tracking opisuje współrzędne lub zmienne pozycje punktów odniesienia na twarzy aktora. Przechwyt może być wykonany w dwóch wymiarach, wtedy proces czasami nazywany jest „zapisem mimiki twarzy” (ang. „expression tracking”), lub w trzech wymiarach. Dwuwymiarowy przechwyt może zostać wykonany przy użyciu jednej kamery i oprogramowania o niskiej cenie, takiego jak np. Zign Track firmy Zign Creations. Jego wynik będzie jednak zdecydowanie mniej dokładny i nie będzie w stanie oddać w pełni trójwymiarowych ruchów, np. głową. Trójwymiarowy przechwyt osiągany jest przy użyciu zestawu wielu kamer lub systemu laserowych znaczników. Zestawy tego typu są przeważnie dużo droższe, bardziej skomplikowane i trudniejsze w obsłudze. W przechwytywaniu ruchów twarzy dominują dwie technologie: systemy wykorzystujące znaczniki oraz te, które nimi się nie posługują.

 

Face Tracking jest podobny do Motion Capture całego ciała. Jest to proces podczas którego przy użyciu wizualnych lub mechanicznych środków edytuje się komputerowo wygenerowaną postać nakładając na nią zapis z ludzkiej twarzy, tak aby
przenieść emocje wyrażone na twarzy użytkownika na ekran komputera.

Historia

Jedna z pierwszych prac na temat animacji opartych na ludzkich ruchach została opublikowana przez Lanca Williama w 1990 roku. Opisuje on w niej „w jaki sposób otrzymać mimikę prawdziwej twarzy i jak ją przenieść na tę, która jest wygenerowana komputerowo”.

Technologie

Technologia wykorzystująca znaczniki (markery)

Tradycyjny system znaczników, składa się z do 350 pojedynczych znaczników umieszczonych na twarzy aktora oraz kamer o wysokiej rozdzielczości, które śledzą i zapisują ich ruch. Technologia ta została użyta w filmach takich jak „Ekspres polarny”
oraz „Beowulf”, by umożliwić aktorom (m.in. Tom Hanks) przygotowanie mimiki dla wielu różnych postaci. Niestety, jest to dość żmudne i sprawia, że przefiltrowany i wygładzony obraz mimiki aktorów staje się przesadzony. Systemy kolejnych generacji, takie jak CaptiveMotion, opierają się na technologii wykorzystywanej w tradycyjnych systemach znaczników, jednak posiadają większą czułość na detale. Technologia aktywnych znaczników LED jest obecnie używana do tworzenia animacji twarzy w czasie rzeczywistym, używanych do komunikacji z użytkownikami.

 

Technologia niewykorzystująca znaczników (bezmarkerowe)

Technologie niewykorzystujące znaczników używają rysów twarzy takich jak nozdrza, kąciki ust i oczu, oraz zmarszczki, śledząc ich ruch i położenie. Technologie te są analizowane w laboratoriach firmy IBM oraz na uniwersytetach takich jak Carnegie Mellon University czy The University of Manchester (skąd w dużym stopniu wywodzą się ich początki związane z osobami takimi jak Tim Cootes, Gareth Edwards oraz Chris Taylor), jak również w innych miejscach. Używa się do tego aktywnych modeli wyglądu (ang. AAM – active appearance models), analizy głównych składowych (ang. Principal Component Analysis, PCA), śledzenia obiektów przy pomocy bibliotek eigen (ang. eigen trackng), modeli o zmiennej powierzchni oraz innych technik do śledzenia wybranych rys twarzy od klatki do klatki. Technologia ta jest dużo mniej żmudna i pozwala aktorowi na wierniejsze oddanie mimiki.

 

Te bazujące na obrazie twarzy metody są w stanie śledzić również ruchy źrenic, powiek oraz warg i języka w kontakcie z zębami, które stanowią oczywisty problem w większości komputerowych animacji twarzy. Ograniczenia wspomnianych metod wiążą się z rozdzielczością oraz ilością klatek, ale i one stają się co raz mniejsze dzięki coraz szerszemu dostępowi do filmujących z wysoką prędkością i dużą rozdzielczością kamer CMOS. Technologia służąca do śledzenia ruchów twarzy bez użycia znaczników jest podobna do tej używanej w systemie rozpoznawania twarzy (ang. facial recognition system), ponieważ jest on w stanie analizować każdą klatkę nagrania, czego rezultatem jest mapowanie twarzy. Dla przykładu, system Neven Vision (autorstwa firmy Eyematics, która obecnie została przejęta przez Gogle) pozwalał na dwuwymiarowe (2D) mapowanie twarzy w czasie rzeczywistym, nie wymagając do tego indywidualnej konfiguracji. System ten znalazł się również pośród najskuteczniejszych tego typu produktów w przeprowadzonym przez rząd USA w 2002 roku teście, Face Recognition Vendor Test (FRVT). Należy jednak nadmienić, że niektóre z systemów rozpoznawania niedokładnie mapują wyraz twarzy, a czasem nawet, w kontakcie z nie do końca neutralną mimiką, zawodzą, dlatego też nie nadają się do śledzenia ruchów twarzy. Z drugiej jednak strony, systemy analizujące zmienne powierzchnie, wykorzystują tymczasowe dane by uniknąć nieścisłości i otrzymać bardziej jednolite wyniki, których nie można byłoby otrzymać z pojedynczej fotografii. Technologia niewykorzystująca znaczników rozwinęła do komercyjnych systemów takich jak image-metrics czy Dynamixyz i znalazła swoje zastosowanie w filmach takich jak trylogia „Matrix” czy „Ciekawy przypadek Benjamina Buttona”. Przy pracy nad tym drugim

korzystano z systemu Mova Contour, by przechwycić model twarzy, który następnie został animowany przy użyciu po części ręcznej, a po części bazującej na obrazie twarzy metody. „Avatar” to przykład kolejnego wybitnego filmu, przy produkcji którego wykorzystywano przechwyt ludzkich ruchów, tu jednak użyto markerów świecących w podczerwieni.

 

Systemy bezmarkerowe mogą zostać sklasyfikowane według następujących kryteriów:

  • mapowanie w 2D i mapowanie w 3D
  • czy wymaga indywidualnej konfiguracji lub jakiegokolwiek innego nadzoru w ludzkiej postaci
  • zapis ruchu w czasie rzeczywistym (co jest możliwe tylko i wyłącznie, gdy nie jest wymagana konfiguracja lub nadzór)
  • czy do użycia wymagane jest dodatkowe źródło informacji takie jak gotowe wzory lub niewidzialna farba użyta w systemie Mova

Do chwili obecnej żaden system nie jest idealny jeżeli chodzi o wszystkie kryteria. Dla przykładu system New Vision był w pełni automatyczny i nie wymagał dodatkowych
wzorów, ani konfiguracji pod konkretną osobę, ale był w 2D. Z kolei system Face/Off jest w 3D, automatyczny, działa w czasie rzeczywistym, jednak wymaga wpisanych wzorów.

 

Przechwyt Mimiki Twarzy

Technologia

Metody bazujące na cyfrowych nagraniach stają się co raz bardziej popularne, gdyż mechaniczne systemy bywają kłopotliwe i trudne w użyciu.
Używając cyfrowych kamer, zapis wyrazu twarzy użytkownika przesyłany jest do oprogramowania by to wpierw ustaliło pozycję głowy, a później dopasowało oczy, nos
i usta. Twarz początkowo zostaje wyskalowana przy użyciu neutralnego wyrazu twarzy. Następnie, zależnie od budowy twarzy, brwi, powieki oraz policzki mogą być edytowane
by zmodyfikować mimikę. Osiąga się to oznaczając, np. brzegi warg, jako specjalny obiekt. Na twarzy osób wykorzystywanych do nagrania często umieszcza się zwiększający kontrast make-up lub znaczniki lub korzysta z jeszcze innych metod, by przyśpieszyć późniejszą komputerową edycję. Podobnie jak w przypadku rozpoznawania głosu, nawet najlepsze techniki są co najwyżej sprawne w 90%, przez co wymagają zaakceptowania dodatkowej ręcznej obróbki lub pewnego marginesu błędów. Ponieważ wygenerowane przez komputer postacie nie posiadają mięśni, używa się różnych technik by osiągnąć podobne rezultaty. Niektórzy twórcy animacji dodają kości lub inne obiekty, które są kontrolowane przez oprogramowanie służące do przechwytywanie i poruszają nimi w odpowiedni sposób, co pomaga w uzyskaniu realistycznego efektu, gdy tylko postać jest dobrze przygotowana do obróbki. Z racji tego, że twarze są bardzo elastyczne, ta technika często mieszana jest z innymi, dostosowując właściwości tak by uzyskać określoną elastyczność skóry i inne czynniki zależnie od mimiki, którą chce się osiągnąć.

 

Zastosowanie

Wiele firm komercyjnych rozwija swoje produkty, które są używane, ale są bardzo drogie. Spodziewa się, że będzie to jedno z głównych urządzeń stosowanych przy produkcji gier komputerowych, tylko gdy oprogramowanie pojawi się w przystępnej cenowo formie. Jednak, jak na razie taki sprzęt i oprogramowanie jeszcze nie istnieją, chociaż trwające już od 15 lat badania nad produktem pozwoliły uzyskać wyniki, które są prawie w pełni nadające się do użytku.

 

This is sample popup;