TW201742431A

TW201742431A - 影像製作系統及方法

Info

Publication number: TW201742431A
Application number: TW105115949A
Authority: TW
Inventors: 劉承祥
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2016-05-12
Filing date: 2016-05-23
Publication date: 2017-12-01
Also published as: US20170330543A1; CN107368491B; CN107368491A; US10297240B2; TWI672948B

Abstract

一種影像製作系統，應用於包括第一顯示螢幕及第二顯示螢幕KTV包廂，該影像製作系統包括信號處理單元及與信號處理單元通訊連接的影像採集單元、背景畫布及智慧話筒，信號處理單元用於接收影像採集單元採集的演唱者影像，根據演唱者的衣服顏色調節背景畫布當前的背景顏色，使得演唱者的衣服顏色與背景畫布當前的背景顏色不同，將所述第一顯示螢幕中顯示的明星MV影像中的歌詞提取出來與所述演唱者影像合成為演唱者MV影像顯示於第二顯示螢幕上；確定智慧話筒數量及提取演唱者人臉的目標範本，並根據提取的目標範本對演唱者人臉和演唱者握著的智慧話筒進行追蹤，根據演唱者人臉的幾何中心與智慧話筒發光環的幾何中心之間的距離，調節演唱者MV影像畫面的縮放。

Description

影像製作系統及方法

本發明涉及數位影像技術，特別涉及一種KTV影像製作系統及方法。

由於現代人喜愛以唱歌的方式達到紓解壓力與自我娛樂的目的，因此一般的付費式唱歌場所，例如KTV，十分受歡迎，其中，有部分的唱歌場所會提供給消費者一種錄製唱歌聲音的服務，讓消費者可反復回味歡唱時的情景。然而，此種錄製處理僅僅錄製了消費者的唱歌聲音，並無法將消費者當時的歡唱影像攝錄下來。

另外，雖然目前的KTV普遍都會配備兩個顯示螢幕，但這兩個顯示螢幕卻顯示了相同的畫面，即僅僅具有明星MV和歌詞提示功能。每一個在KTV縱聲高歌的消費者在用歌聲表達自己心情的同時更希望聲音與個人影像以及現場能夠完美結合，讓自己身臨其境的體驗明星演唱的感覺。

鑒於以上內容，有必要提出一種影像製作系統及方法，能夠將演唱者的聲音及影像結合製作成演唱者MV影像。

一種影像製作系統，應用於一KTV包廂，該KTV包廂設置有用於顯示點歌功能表及明星MV影像畫面的第一顯示螢幕、與所述第一顯示螢幕固定於同一面牆上的第二顯示螢幕，該影像製作系統包括：信號處理單元、影像採集單元、背景畫布及智慧話筒，所述影像採集單元、背景畫布及智慧話筒分別無線通訊連接於所述信號處理單元，其中：

所述信號處理單元，用於接收所述影像採集單元採集的演唱者的影像；

所述信號處理單元，用於根據演唱者的衣服顏色調節所述背景畫布當前的背景顏色，使得演唱者的衣服顏色與所述背景畫布當前的背景顏色不同；

所述信號處理單元，還用於將所述第一顯示螢幕中顯示的明星MV影像中的歌詞提取出來與所述演唱者影像合成為演唱者MV影像，並顯示於所述第二顯示螢幕上；

所述信號處理單元，還用於確定智慧話筒數量及提取演唱者人臉的目標範本，並根據提取的目標範本對演唱者人臉和演唱者握著的智慧話筒進行追蹤，根據演唱者人臉的幾何中心與智慧話筒發光環的幾何中心之間的距離，調節演唱者MV影像畫面的縮放。

一種影像製作方法，應用於一KTV包廂，該KTV包廂包括所述的影像製作系統，所述方法包括：

採集包括所述背景畫布在內的演唱者影像；

確定所述智慧話筒的數量；

提取演唱者人臉的目標範本；

當偵測到用戶建立了資料夾時，所述信號處理單元根據提取的演唱者人臉的目標範本對演唱者人臉和所述智慧話筒進行追蹤，根據演唱者人臉的幾何中心與所述智慧話筒的發光環的幾何中心之間的距離，調節所述第二顯示螢幕上的影像畫面的縮放；

將所述第一顯示螢幕中顯示的明星MV歌詞提取出來與所述演唱者影像合成為演唱者MV影像，並顯示於所述第二顯示螢幕上；及

當第一顯示螢幕上的明星MV影像的歌曲結束時，保存製作的演唱者MV影像。

相對於習知技術，本發明所述的影像製作系統及方法，能夠將演唱者的聲音及影像結合製作成演唱者MV影像，不需要任何的人為操作，演唱者MV影像畫面能夠隨著演唱者與環境的變化而變化，並且運用了人臉與智慧話筒之間的距離控制演唱者MV影像畫面的縮放。

圖1係本發明影像製作系統較佳實施方式之一的硬體架構圖。

圖2係本發明影像製作系統較佳實施方式之二的硬體架構圖。

圖3係本發明網路單元較佳實施方式的示意圖。

圖4係本發明背景畫布較佳實施方式的示意圖。

圖5係本發明智慧話筒較佳實施方式的示意圖。

圖6係本發明人臉及目標範本較佳實施方式的示意圖。

圖7係本發明影像製作方法較佳實施方式的流程圖。

圖8係本發明確定智慧話筒數量較佳實施方式的流程圖。

圖9係本發明提取人臉目標範本較佳實施方式的流程圖。

圖10係本發明單人演唱時影像製作方法較佳實施方式的流程圖。

圖11係本發明雙人演唱時影像製作方法較佳實施方式的流程圖。

參閱圖1所示，係本發明影像製作系統較佳實施方式的硬體架構圖。

本實施例中，所述影像製作系統1安裝於一KTV包廂內，該KTV包廂內包括一個第一顯示螢幕601及一個第二顯示螢幕602。在一些實施例中，所述第一顯示螢幕601及第二顯示螢幕602均裝設於KTV包廂內正對面的牆壁上。所述第一顯示螢幕601用於顯示點歌功能表及顯示帶歌詞提示的明星MV影像畫面。在一些實施例中，所述第一顯示螢幕601及第二顯示螢幕602可以為觸控式顯示螢幕。

所述影像製作系統1包括，但不僅限於，影像採集單元10、信號處理單元30、網路單元40、背景畫布50及智慧話筒70，其中，所述信號處理單元30連接所述影像採集單元10、所述第二顯示螢幕602、所述網路單元40、所述背景畫布50及所述智慧話筒70，所述網路單元40還連接所述第一顯示螢幕601。本實施例中，所述連接為無線通訊連接。

在其他一些實施例中，該影像製作系統1還包括燈光輔助單元20，所述燈光輔助單元20裝設於KTV包廂內的牆壁上且與所述信號處理單元30連接。所述燈光輔助單元20可以發出紅、綠、藍三種顏色的燈光，主要用於對KTV包廂內的光線進行調節，以達到令人絢爛的感覺。

請一併參閱圖2所示，所述影像採集單元10在一些實施例中可以包括5個影像採集鏡頭，其係分別裝設於KTV包廂內四個牆角之上的第一影像採集鏡頭101、第二影像採集鏡頭102、第三影像採集鏡頭103、第四影像採集鏡頭104，以及裝設於第一顯示螢幕601和第二顯示螢幕602中間位置處的第五影像採集鏡頭105。應當說明的係，該第五影像採集鏡頭105採集的係包括所述背景畫布50在內的演唱者影像。

上述包括5個影像採集鏡頭（101，102，103，104，105）的影像採集單元10可以360°的採集KTV包廂內的影像並將採集到的影像信號傳輸給所述信號處理單元30。所述信號處理單元30可以係電腦或者微處理器等。

所述燈光輔助單元20在一些實施例中可以包括第一燈具201、第二燈具202、第三燈具203、第四燈具204及第五燈具205。其中，所述第一燈具201、第二燈具202、第三燈具203及第四燈具204分別裝設於KTV包廂內四個牆角之上。所述第五燈具205為專用的白光燈，用以輔助所述第五影像採集鏡頭105採集出清晰靚麗的人體和人臉影像。

所述燈光輔助單元20與所述影像採集單元10相隔預設距離，即5個燈具（201，202，203，204，205）分別裝設於5個影像採集鏡頭（101，102，103，104，105）預設距離內。具體而言，所述第一燈具201裝設於所述第一影像採集鏡頭101預設距離內，所述第二燈具202裝設於所述第二影像採集鏡頭102預設距離內，所述第三燈具203裝設於所述第三影像採集鏡頭103預設距離內，所述第四燈具204裝設於所述第四影像採集鏡頭104預設距離內，所述第五燈具205裝設於所述第五影像採集鏡頭105預設距離內。所述預設距離以保證所述燈光輔助單元20發出的燈光不影響所述影像採集單元10採集的畫面品質為佳，例如30釐米。

所述信號處理單元30用於獲取所述影像採集單元10採集之影像，並將所述影像編輯為演唱者MV影像顯示於所述第二顯示螢幕602上，令演唱者能夠即時欣賞到唱歌的景況，增加唱歌之外的娛樂性。在其他實施例中，所述信號處理單元30還用於將編輯後的演唱者MV影像儲存於所述網路單元40中。

在一些實施例中所述信號處理單元30包括數位影像處理硬體，例如專用於高清影像處理的數位信號處理晶片。所述信號處理單元30在另一實施例中包括數位影像處理軟體，例如主要係對所述影像採集單元10採集的影像進行資料處理與分析。在其他一些實施例中該影像採集單元10可以同時包括數位影像處理硬體及軟體。

所述網路單元40用以與移動通訊設備通訊連接。在一些實施例中，所述網路單元40包括一無線通訊模組401及一儲存模組402，如圖3所示。所述無線通訊模組401可以係WIFI模組。所述儲存模組402可以包括至少一種類型的儲存介質，所述儲存介質包括快閃記憶體、硬碟、多媒體卡、隨機訪問記憶體、靜態記憶體或者唯讀記憶體、點可擦除可程式設計唯讀記憶體、可程式設計唯讀記憶體、磁性記憶體等等。

演唱者可以利用隨身攜帶的移動通訊設備（例如智慧手機、平板電腦等）與該網路單元40的無線通訊模組401進行無線通訊，自行選取所述儲存模組402中儲存的演唱者MV影像下載到移動通訊設備中帶走。當演唱時間結束後可由使用者自行刪除所述網路單元40中的演唱者MV影像。在一些實施例中，為了更加保護用戶的隱私，所述網路單元40在開啟或關閉或重啟時也可以自動刪除所述儲存模組402中儲存的資料。

如圖4所示為本發明背景畫布較佳實施方式的示意圖。

所述背景畫布50包括位於上半部分的第一畫布503及位於下半部分的第二畫布504，所述第一畫布503採用第一顏色，所述第二畫布504採用第二顏色。在一些實施例中，所述第一畫布503可以採用粗糙的且漫反射效果比較好的綠色，所述第二畫布504可以採用粗糙的且漫反射效果比較好的藍色。

所述背景畫布50還包括第一卷軸501及第二卷軸502，所述第一卷軸501用於控制所述第一畫布503卷起或展開，所述第二卷軸502用於控制所述第二畫布504卷起或展開。所述第一卷軸501及第二卷軸502還分別連接一馬達（圖中未顯示），該馬達與所述所述信號處理單元30無線通訊連接，所述馬達在所述信號處理單元30的控制下分別驅動所述第一卷軸501或第二卷軸502捲動。本實施例中，所述背景畫布50安裝在與第五影像採集鏡頭105相對的牆壁上，以便於演唱者站於該背景畫布50前時，所述第五影像採集鏡頭105能夠採集包括背景畫布50在內的演唱者影像。

本實施例中所述信號處理單元30能夠根據演唱者的衣服顏色切換所述背景畫布50的背景顏色。例如，當所述影像採集單元10採集到演唱者的衣服顏色為綠色或者趨向於綠色系的時候，所述第一卷軸501中的馬達在所述信號處理單元30的控制下驅動所述第一卷軸501捲動從而將所述第一畫布503卷起，則所述第二畫布504被向上拉起，此時所述背景畫布50的背景顏色被調節成藍色；當演唱者的衣服顏色為藍色或者趨向於藍色系的時候，所述第二卷軸502中的馬達在所述信號處理單元30的控制下驅動所述第二卷軸502捲動從而將所述第二畫布504卷起，則所述第一畫布503被向下拉動，此時所述背景畫布50的背景顏色被調節成綠色。

如圖5所示為本發明智慧話筒較佳實施方式的結構示意圖。

所述智慧話筒70包括，但不僅限於，開關701、防塵罩702及發光環703。其中，所述發光環703設置於所述開關701的上方且設置於所述防塵罩702的下方。該發光環703由智慧話筒70本身的供電系統進行供電，當開關701被打開時發光環703發出第三顏色的光。所述發光環703在一些實施例中可以為紅色發光環，紅色發光環發出的紅色光易於與藍色或者綠色的背景畫布50區分開。本實施例中所述發光環703用於定位所述智慧話筒70的位置，及確定演唱者的數量。藉由所述發光環703確定所述智慧話筒70位置及演唱者的數量的具體步驟參閱圖8及相應描述所示。

如圖6所示為本發明人臉及目標範本較佳實施方式的示意圖。

所示影像採集單元10採集包括演唱者在內的影像並將採集到的影像信號傳輸給所述信號處理單元30，所述信號處理單元30識別演唱者人臉並進一步提取演唱者人臉的目標範本80。所述信號處理單元30提取演唱者人臉的目標範本80的具體過程參見圖9及相應描述。

圖7係本發明影像製作方法較佳實施方式的流程圖。根據不同的需求，該圖所示流程圖中步驟的執行順序可以改變，某些步驟可以省略。

步驟51：開啟第五影像採集鏡頭105和第五燈具205，所述第一顯示螢幕601顯示明星MV影像畫面，所述第二顯示螢幕602即時顯示第五影像採集鏡頭105採集的包括演唱者在內的影像畫面。

本實施例中，所述第一顯示螢幕601上還可以顯示點歌功能表，演唱者藉由該點歌功能表進行點歌。演唱者進行點歌時，所述信號處理單元30發送無線控制信號控制所述第五影像採集鏡頭105和第五燈具205開啟。演唱者點歌完成後，所述第一顯示螢幕601顯示與所述演唱者點選的歌曲相對應的明星MV影像畫面。

步驟52：調節所述背景畫布50當前的背景顏色，以使該背景畫布50當前的背景顏色與演唱者的衣服顏色不同。

本實施例中，所述第五影像採集鏡頭105採集包括所述背景畫布50在內的演唱者影像，並將所採集的影像信號發送至所述信號處理單元30，該信號處理單元30藉由分析該影像判斷演唱者的衣服顏色進而調節所述背景畫布50當前的背景顏色。

具體地，所述信號處理單元30先判斷所述影像邊角處（例如，左上角，或者右下角，或者左下角，或者右上角）的顏色來確定所述背景畫布50當前的顏色，然後將影像的每一個圖元值減去所述背景畫布50當前的顏色的圖元值之後再進行二值化及連通性處理，最後確定經過連通性處理之後的影像中空洞的數量，若空洞的數量小於閾值N，則說明演唱者的衣服顏色與所述背景畫布50當前的顏色相同，所述信號處理單元30控制所述背景畫布50切換畫布當前的顏色。例如，背景畫布50當前的顏色為綠色時，所述信號處理單元30控制背景畫布50切換為藍色，或者背景畫布50當前的顏色為藍色時，所述信號處理單元30控制背景畫布50切換為綠色。

步驟53：確定智慧話筒70的數量。

本實施例中，所述信號處理單元30藉由檢測智慧話筒70發光環703發出的光的數量來確定智慧話筒70的數量。具體過程參見圖8及相應描述。

步驟54：提取演唱者人臉的目標範本80。

演唱者人臉的目標範本80如圖6所示，所述信號處理單元30提取演唱者人臉的目標範本80的具體過程參見圖9及相應描述。

步驟55：判斷用戶係否建立了資料夾。

如果使用者在網路單元40中建立了資料夾，則執行步驟56；如果使用者沒有在網路單元40中建立資料夾，則繼續執行步驟55。所述資料夾用於存放演唱者MV影像。

步驟56：所述信號處理單元30控制第一至第四影像採集鏡頭（101，102，103，104）及第一至第四燈具（201，202，203，204）全部開啟，第一顯示螢幕601顯示明星MV影像畫面。

本實施例中，所述信號處理單元30發送無線控制信號控制第一至第四影像採集鏡頭（101，102，103，104）及第一至第四燈具（201，202，203，204）全部開啟。

步驟57：所述信號處理單元30根據提取的目標範本80對演唱者人臉和握著的智慧話筒70進行追蹤，判斷演唱者人臉幾何中心與發光環703的幾何中心之間的距離，根據該距離控制所述第二顯示螢幕602上的影像畫面的縮放。

具體地，判斷演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離，當演唱者人臉幾何中心與發光環703的幾何中心之間的距離小於等於第一預設距離值（例如r）時，說明演唱者此時唱的比較投入，可以將所述第二顯示螢幕602上的影像畫面圍繞演唱者人臉區域進行放大顯示。在一些實施例中，演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離越小，所述第二顯示螢幕602上的影像畫面圍繞演唱者人臉區域放的越大。

當演唱者人臉幾何中心與發光環703的幾何中心之間的距離大於所述第一預設距離值（例如r）且小於第二預設距離值（例如s）時，說明演唱者此時以平和的聲調在唱歌，所述第二顯示螢幕602上的影像畫面不進行縮放顯示，即在所述第二顯示螢幕602上顯示演唱者手握智慧話筒70的半身影像。

當演唱者人臉幾何中心與發光環703的幾何中心之間的距離大於等於第二預設距離值（例如s）時，說明演唱者此時沒有演唱，或站著或走動，可以將所述第二顯示螢幕602上的影像畫面圍繞演唱者人臉區域進行縮小顯示，即在第二顯示螢幕602上顯示演唱者的整個人身畫面。

在其他實施例中，所述信號處理單元30還根據演唱者演唱的歌曲曲調的變換速率選用不同的變換特效。

演唱者演唱時的歌聲由頻率和幅度決定，本實施例中，所述信號處理單元30對演唱者的歌聲進行抽樣，例如對演唱者第1s內的歌聲等距離抽樣取樣（抽樣率大於c）計算，如果演唱者的歌聲頻率越來越快，幅度變化不大時，說明演唱者此時係說唱的節奏，可以將所述第二顯示螢幕602上的影像畫面進行平移顯示；當演唱者的歌聲頻率越來越慢，幅度變化不大時，說明演唱者此時係趨向於歌聲要結束的一小段節奏，可以將所述第五影像採集鏡頭105採集的影像畫面與所述第一至第四任一影像採集鏡頭（101、102、103、104）採集的影像畫面進行合成顯示，以其中一個影像採集鏡頭採集的影像畫面作為大畫面，另一個影像採集鏡頭採集的影像畫面作為小畫面，以達到畫中畫的效果；當演唱者的歌聲幅度變化大但頻率不大時，說明演唱者的聲音大小在不斷的變化，可以調節所述第二顯示螢幕602上的影像畫面的RGB值及色度，以增加畫面的效果。

步驟58：將明星MV影像中的歌詞提取出來與包括演唱者在內的影像合成為演唱者MV影像顯示於所述第二顯示螢幕602上。

本實施例中，所述明星MV影像顯示於所述第一顯示螢幕601上，所述包括演唱者在內的影像係由所述第五影像採集鏡頭105採集的。

步驟59：判斷歌曲係否結束。

具體地，藉由判斷所述第一顯示螢幕601中明星MV影像的倒計時來判斷歌曲係否結束。如果歌曲結束，執行步驟510。如果歌曲沒有結束，繼續執行步驟59。

步驟510：製作合成演唱者MV影像並保存於所述網路單元40中。

當演唱者MV影像合成完成後，演唱者可以從所述網路單元40中下載合成的演唱者MV影像。

演唱者可以事先藉由服務人員處獲知自身所在KTV包廂內的WIFI名稱及WIFI密碼。應當說明的係，為了保護演唱者個人隱私，防止其他KTV包廂內的使用者竊取演唱者MV影像，可以為每個KTV包廂設置不同的WIFI帳號及密碼，並定期或不定期的更新WIFI帳號及/或WIFI密碼。當演唱者下載完所有保存的演唱者MV影像，可以選擇手動刪除所述網路單元40中所有的影像。在其他實施例中，所述信號處理單元30藉由接收所述影像採集單元10採集的影像從而判斷KTV包廂內係否還有演唱者，當KTV包廂內的演唱者全部離開房間超過一預設時間後，發送清除指令給所述網路單元40清除所有資料。

圖8為本發明確定智慧話筒數量較佳實施方式的流程圖。根據不同的需求，該圖所示流程圖中步驟的執行順序可以改變，某些步驟可以省略。

步驟71：演唱者打開所述智慧話筒70。

本實施例中，當演唱者打開所述智慧話筒70開始演唱時，需提起該智慧話筒70至胸前位置，且不能遮擋住所述智慧話筒70上的發光環703。

步驟72：第五影像採集鏡頭105採集包括演唱者在內的影像，並將採集的影像傳送至信號處理單元30。

步驟73：提取所述影像中的一幀影像，對該提取的一幀影像進行長條圖統計處理。

在一些實施例中，所述信號處理單元30接收所述第五影像採集鏡頭105採集包括演唱者在內的影像，根據預先設定的提取規則提取所述影像中的一幀影像。所述預先設定的提取規則可以係預定時間處的一幀影像或者預定位置處的一幀影像。在一些實施例中，所述信號處理單元30接收所述第五影像採集鏡頭105採集包括演唱者在內的影像，任意提取該影像中的一幀影像。

步驟74：對經過長條圖統計處理後的一幀影像進行二值化處理和形態學運算。

本實施例中，所述二值化處理係指將經過長條圖統計處理後的一幀影像中的紅色圖元設定為1，非紅色圖元設定為0，最後對進行二值化處理後的影像做形態學運算，例如腐蝕和膨脹運算以及連通性分析。

步驟75：確定智慧話筒70的數量。

本實施例中，統計經過形態學運算之後的影像中包括的紅色區塊的數量，即可得到所述發光環703的數量，發光環703的數量即為智慧話筒70的數量及演唱者的數量。例如，統計經過形態學運算之後的影像中包括的紅色區塊的數量為1，則表明發光環703發出的光的數量為1，因此，可以確定所述智慧話筒70的數量及演唱者的數量均為1。本實施例中，確定所述智慧話筒70的數量即可對該話筒70進行定位與跟蹤。

圖9為本發明提取演唱者人臉的目標範本的較佳實施方式的流程圖。根據不同的需求，該圖所示流程圖中步驟的執行順序可以改變，某些步驟可以省略。

步驟81：獲取所述第五影像採集鏡頭105採集的包括演唱者在內的影像，提取該影像中的一幀影像。

步驟82：轉換該提取的一幀影像的顏色空間。

由於人臉皮膚的圖元比較特殊，所述信號處理單元30將影像的顏色空間由紅綠藍（Red， Green， Blue， RGB）空間模型轉換為YCrCb模型。所述YCrCb顏色空間為習知技術，本發明在此不再敘述。由RGB顏色空間轉換為YCrCb顏色空間的轉換公式如下：

Y = 0.2990*R + 0.5780*G + 0.1140*B + 0；

Cr = 0.5000*R - 0.4187*G - 0.0813*B + 128；

Cb = -0.1687*R - 0.3313*G + 0.5000*B + 128。

步驟83：對轉換顏色空間後的一幀影像進行二值化處理及形態學運算。

具體地，提取Cr分量在區間[140，160]的圖元，並將該區間中的Cr分量二值化為1，該區間以外的Cr分量全部二值化為0，並對二值化後的圖像進行去噪和形態學處理，例如腐蝕和膨脹運算以及連通性分析。

步驟84：確定演唱者的數量。

本實施例中，統計經過形態學運算之後的影像中的圖元團的數量，所述圖元團的數量即為演唱者的數量。

步驟85：提取演唱者人臉的目標範本80進行儲存。

具體地，將影像中的每個圖元團在X軸與Y軸上分別做投影，從而得到人臉的最小外接矩形，如圖7中所示的矩形框，選取最小外接矩形中間的固定大小的區塊作為目標範本80。所述X軸係指水準方向，所述Y軸係指垂直方向。

本發明所述的影像製作系統1主要分為單人演唱和雙人對唱兩種情況。

圖10為單人演唱時較佳實施例的流程圖。根據不同的需求，該圖所示流程圖中步驟的執行順序可以改變，某些步驟可以省略。

步驟910：開啟第一至第四影像採集鏡頭（101，102，130，104）及一個智慧話筒70。

本實施例中，在單人演唱的情況下，只需打開一個智慧話筒70。

步驟911：追蹤智慧話筒70。

本實施例中，由於智慧話筒70的發光環703發出的光非常顯眼，利用四個影像採集鏡頭（101，102，130，104）採集所述發光環703的影像，從而可以對已打開的所述智慧話筒70進行追蹤與定位。

步驟912：確定獲取演唱者人臉影像的影像採集鏡頭。

由於係四個影像採集鏡頭組成的360度全方位的採集，每個影像採集鏡頭的廣角不需要特別大，所以智慧話筒70只可能同時處於兩個影像採集鏡頭中。同時演唱者在演唱的時候會將所述智慧話筒70放置在胸前，所以正對著演唱者的兩個影像採集鏡頭會採集到智慧話筒70和演唱者人臉。

步驟913：利用儲存的目標範本80搜索演唱者人臉。

提取演唱者人臉的目標範本80參閱圖7及相應描述。利用抓取到所述智慧話筒70的兩個影像採集鏡頭採集包括演唱者在內的影像，運用已經儲存的人臉目標範本80搜索演唱者人臉。

本實施例中，首先在採集到的影像畫面中運用人臉檢測演算法找到可能的人臉區域，在一些實施例中，可以藉由搜索演算法，例如鑽石搜索演算法與十字形搜索演算法相結合，搜索演唱者人臉，再利用目標匹配演算法將目標範本80與搜索到的人臉進行目標匹配。在一些實施例中，目標匹配演算法可以係差值的絕對值的均值演算法。

步驟914：將匹配到的演唱者人臉分別在水準和垂直方向上做投影，從而得到演唱者人臉的幾何中心，同時將採集的演唱者人臉面積最大的影像作為後續處理的原版圖像。

步驟915：計算演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離，根據該距離控制所述原版圖像的縮放。

當演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離小於等於第一預設距離值（例如r）時，說明演唱者此時唱的比較投入，可以將所述原版圖像圍繞人臉區域進行放大顯示。在一些實施例中，演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離越小，所述原版圖像圍繞人臉區域放的越大。

當演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離大於所述第一預設距離值（例如r）且小於第二預設距離值（例如s）時，說明演唱者此時以平和的聲調在唱歌，所述原版圖像不進行縮放顯示，即可以在第二顯示螢幕602上顯示顯示演唱者手握智慧話筒70的半身影像。

當演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離大於等於第二預設距離值（例如s）時，說明演唱者此時沒有演唱，或站著或走動，可以將所述原版圖像圍繞人臉區域進行縮小顯示，即在第二顯示螢幕602上顯示演唱者的整個人身畫面。

步驟916：根據演唱者人臉的轉動切換第二顯示螢幕602上顯示的影像畫面。

當演唱者在唱歌的時候轉動頭部和身子時，計算當前影像採集鏡頭採集的演唱者人臉面積確定演唱者所要轉向的方向，同時將另一個影像採集鏡頭採集的影像畫面作為第二顯示螢幕602顯示的下一幀影像畫面。

在一些實施例中，還可以根據演唱者頭部轉動的速度控制畫面特技效果。當演唱者頭部轉動的速度小於等於第一速度值（例如a）時，說明演唱者頭部轉動的比較慢，運用淡入淡出的效果會讓畫面銜接比較流暢。當演唱者頭部轉動的速度大於所述第一速度值（例如a）小於第二速度值（例如b）時，運用鏡像特效；當演唱者頭部轉動的速度大於所述第二速度值（例如b）時，運用飛行特效實現畫面的快速切換。

步驟917：根據演唱者的歌聲控制第二顯示螢幕602上顯示的影像畫面。

演唱者演唱時的歌聲由頻率和幅度決定，本實施例中，所述信號處理單元30根據歌曲曲調的變換速率顯示不同的變換特效包括：對演唱者的歌聲進行抽樣，例如對演唱者第1s內的歌聲等距離抽樣取樣（抽樣率大於c）計算。如果演唱者的歌聲頻率越來越快，幅度變化不大時，說明演唱者此時係說唱的節奏，可以將所述第二顯示螢幕602上的影像畫面進行平移顯示；當演唱者的歌聲頻率越來越慢，幅度變化不大時，說明演唱者此時係趨向於歌聲要結束的一小段節奏，可以將所述第五影像採集鏡頭105採集的影像畫面與所述第一至第四任一影像採集鏡頭（101、102、103、104）採集的影像畫面進行合成顯示，以其中一個影像採集鏡頭採集的影像畫面作為大畫面，另一個影像採集鏡頭採集的影像畫面作為小畫面，以達到畫中畫的效果；當演唱者的歌聲幅度變化大但頻率不大時，說明演唱者的聲音大小在不斷的變化，可以將所述第二顯示螢幕602上的影像畫面的RGB值及色度調節顯示，以增加畫面的效果。

步驟918：將所述第一顯示螢幕601中的明星MV歌詞提取出來與所述第五影像採集鏡頭105採集的影像合成為演唱者MV影像顯示於第二顯示螢幕602上。

當演唱者走到了背景畫布50前面時，由第五影像採集鏡頭105採集包括背景畫布及演唱者在內的影像，所述信號處理單元30將演唱者從第五影像採集鏡頭105採集的影像中摳出，與所述第一顯示螢幕601中顯示的明星MV的背景畫面進行合成。特別係當演唱者跳舞和進行慢動作時，能夠實現真正的人融入歌聲與環境中。

步驟919：當歌曲結束時保存製作的演唱者MV影像。

本實施例中，藉由判斷所述第一顯示螢幕601中明星MV的倒計時來判斷歌曲係否結束。如果歌曲結束，將預存的歌詞疊加到合成後的演唱者MV影像中，真正實現了演唱者MV影像的現場製作。

圖11為雙人演唱時較佳實施例的流程圖。根據不同的需求，該圖所示流程圖中步驟的執行順序可以改變，某些步驟可以省略。

步驟1010：開啟第一至第四影像採集鏡頭（101，102，130，104）及兩個智慧話筒70。

本實施例中，在雙人演唱的情況下，需要打開兩個智慧話筒70。

步驟1011：追蹤智慧話筒70。

步驟1012：確定獲取演唱者人臉影像的影像採集鏡頭。

由於雙人演唱時，每個人的角度可能不一樣，因此四個影像採集鏡頭（101，102，130，104）都可以檢測到智慧話筒70。

步驟1013：利用儲存的目標範本80搜索演唱者人臉。

步驟1014：將匹配到的演唱者人臉分別在水準與垂直方向上做投影，從而得到演唱者人臉的幾何中心，同時將採集的演唱者人臉面積最大的影像作為後續處理的原版圖像。

步驟1015：當兩個演唱者的臉部圖像面積最大的部分位於不同的影像採集鏡頭，此時可以將第二顯示螢幕602顯示的畫面平均分成兩部分，每一部分分別執行下面步驟1016-1020中的操作。

步驟1016：計算演唱者人臉幾何中心與智慧話筒70發光環703的幾何中心之間的距離，根據該距離控制所述原版圖像的縮放。

步驟1017：根據演唱者人臉的轉動切換第二顯示螢幕602上顯示的影像畫面。

當演唱者在唱歌的時候轉動頭部和身子時，計算當前影像採集鏡頭採集的演唱者人臉面積確定演唱者所要轉向的方向，同時將另一個影像採集鏡頭採集的影像畫面作為第二顯示螢幕602顯示的畫面的下一幀影像。

步驟1018：根據演唱者的歌聲控制第二顯示螢幕602上顯示的影像畫面。

步驟1019：將所述第一顯示螢幕601中的明星MV歌詞提取出來與所述第五影像採集鏡頭105採集的影像合成為演唱者MV影像顯示於第二顯示螢幕602上。

步驟1020：當歌曲結束時保存製作的演唱者MV影像。

除此之外，本發明影像製作方法，其影像輸出有三種模式可供選擇，三種模式能帶給演唱者三種不同的感覺。其中：

模式一僅開啟第五影像採集鏡頭105及第五燈具205，所述第五燈具205發出白光，使得所述第五影像採集鏡頭105能夠採集到高清的包括演唱者在內的影像。所述信號處理單元30根據所述第五影像採集鏡頭105採集的影像分析所述演唱者的衣服顏色，並根據演唱者的衣服顏色控制所述背景畫布50的使用中色彩。例如，當演唱者的衣服顏色為藍色或者趨近於藍色系時，控制所述背景畫布50的使用中色彩為綠色，目的在於使演唱者的衣服顏色與所述背景畫布50的使用中色彩形成明顯的區別。同時，所述信號處理單元30將演唱者從所述背景畫布50中摳出，與預設的場景進行合成為一演唱者MV影像，最後將從所述第一顯示螢幕601中的明星MV影像中提取出來的歌詞與該演唱者MV影像同步顯示在所述第二顯示螢幕602上。所述預設的場景係指與第一顯示螢幕601顯示的明星MV影像具有相同場景的虛擬場景。演唱者在模式一下，可以將自己的表情和動作與明星MV影像形成鮮明的對比，盡情的融入其中。在其他一些實施例中，模式一可在所述背景畫布50大小允許的情況下，進行多人合唱。

模式二適合單人演唱，開啟第五影像採集鏡頭105及第五燈具205，提取演唱者人臉的目標範本80後，關閉該第五影像採集鏡頭105及第五燈具205並同時打開第一至第四影像採集鏡頭（101，102，103，104）與燈具（201，202，203，204）。四個燈具（201，202，203，204）可以發出不同顏色的燈光，或者變換燈光的強弱，以用於渲染場景。四個影像採集鏡頭（101，102，103，104）可以採集不同角度或者方向的影像，以對演唱者人臉進行追蹤。本實施例中，根據圖7提取的目標範本80，配合目標跟蹤演算法（例如，空間長條圖、十字搜索、鑽石搜索演算法等）追蹤演唱者人臉。在追蹤演唱者人臉的基礎上還可以對四個影像採集鏡頭（101，102，103，104）採集的影像進行合成，藉由調整影像的RGB值及透明度對圖像進行色度的隨機顯示；也可以藉由基於人臉的放大縮小以及物理運動來實現縮放、平移、旋轉以及調整其縮放中心、旋轉中心、縮放旋轉角度等操作；也可以實現特技功能，例如鏡頭的推拉搖移、淡入淡出、鏡像、飛行等特技畫面；還可以綜合使用四個影像採集鏡頭以實現畫中畫以及場景重播特技。模式二可對KTV包廂進行全方位的採集，並將編輯合成後的演唱者MV影像即時顯示於第二顯示螢幕602上，增強了畫面的現場感，給人一種個人演唱會的感覺。

模式三為即時顯示模式，僅開啟第一至第四燈具（201，202，203，204）及第一影像採集鏡頭101、第二影像採集鏡頭102，其中該第一影像採集鏡頭101、第二影像採集鏡頭102與第一顯示螢幕601、第二顯示螢幕602位於同一面牆上。模式三為藉由該第一影像採集鏡頭101、第二影像採集鏡頭102採集KTV包廂內的即時影像，信號處理單元30將採集到的影像即時合成為一個整體畫面並輸出到第二顯示螢幕602進行顯示。演唱者在模式三下，能夠藉由第二顯示螢幕602的顯示，不僅可以觀看個人的舞姿，還可以同時瞭解KTV包廂內其他演唱者的活動畫面，也方便人多的時候進行合唱或者在有人伴舞的情況下擴大視角範圍，給人一種舞臺的感覺，真正起到大家一起嗨的效果。

本發明所述的影像製作系統及方法，藉由5個影像採集鏡頭（101，102，103，104及105）能夠真正實現KTV包廂內的影像進行360度全方位的即時採集，不需要任何複雜的操作及後期的製作，隨著歌曲的不同最終合成出帶歌詞提示的演唱者MV影像也會不同，保證了的製作的演唱者MV影像的多樣性。藉由對智慧話筒70的追蹤及演唱者人臉的追蹤，智慧的對演唱者人臉部分和演唱者進行取景，還可以藉由判斷智慧話筒70發光環703的幾何中心與演唱者人臉的幾何中心的距離，智慧調節影像畫面的縮放，藉由歌曲的曲調變化智慧運用特效。三種模式的切換讓演唱者體驗不同的感覺。演唱者還可以藉由網路單元自行選取並拷貝所需影像。在演唱結束時影像製作系統自行刪除所存資料，保護了客戶的隱私。

在本發明所提供的幾個實施例中，應該理解到，所揭露的方法和系統，可以藉由其它的方式實現。例如，以上所描述的系統實施例僅僅係示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

所述作為分離部件說明的單元可以係或者也可以不係物理上分開的，作為單元顯示的部件可以係或者也可以不係物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以係各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能單元的形式實現。

上述以軟體功能單元的形式實現的集成的單元，可以儲存在一個電腦可讀取儲存介質中。上述軟體功能單元儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備（可以係個人電腦，伺服器，或者網路設備等）或處理器（processor）執行本發明各個實施例所述方法的部分步驟。而前述的儲存介質包括：U盤、移動硬碟、唯讀記憶體（Read-Only Memory，ROM）、隨機存取記憶體（Random Access Memory，RAM）、磁碟或者光碟等各種可以儲存程式碼的介質。

對於本領域技術人員而言，顯然本發明不限於上述示範性實施例的細節，而且在不背離本發明的精神或基本特徵的情況下，能夠以其他的具體形式實現本發明。因此，無論從哪一點來看，均應將實施例看作係示範性的，而且係非限制性的，本發明的範圍由所附申請專利範圍第項而不係上述說明限定，因此旨在將落在申請專利範圍第項的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將申請專利範圍第項中的任何附圖標記視為限制所涉及的申請專利範圍第項。此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。系統申請專利範圍第項中陳述的多個單元或裝置也可以由一個單元或裝置藉由軟體或者硬體來實現。第一，第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應當說明的係，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照以上較佳實施方式對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

1‧‧‧影像製作系統

10‧‧‧影像採集單元

101‧‧‧第一影像採集鏡頭

102‧‧‧第二影像採集鏡頭

103‧‧‧第三影像採集鏡頭

104‧‧‧第四影像採集鏡頭

105‧‧‧第五影像採集鏡頭

20‧‧‧燈光輔助單元

201‧‧‧第一燈具

202‧‧‧第二燈具

203‧‧‧第三燈具

204‧‧‧第四燈具

205‧‧‧第五燈具

30‧‧‧信號處理單元

40‧‧‧網路單元

401‧‧‧無線通訊模組

402‧‧‧儲存模組

50‧‧‧背景畫布

501‧‧‧第一卷軸

502‧‧‧第二卷軸

503‧‧‧第一畫布

504‧‧‧第二畫布

601‧‧‧第一顯示螢幕

602‧‧‧第二顯示螢幕

70‧‧‧智慧話筒

701‧‧‧開關

702‧‧‧防塵罩

703‧‧‧發光環

80‧‧‧目標範本

無