JP2005142640A - Terminal apparatus - Google Patents
Terminal apparatus Download PDFInfo
- Publication number
- JP2005142640A JP2005142640A JP2003374311A JP2003374311A JP2005142640A JP 2005142640 A JP2005142640 A JP 2005142640A JP 2003374311 A JP2003374311 A JP 2003374311A JP 2003374311 A JP2003374311 A JP 2003374311A JP 2005142640 A JP2005142640 A JP 2005142640A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- terminal
- specific sound
- unit
- receiving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明はネットワークを介してテレビ会議を行う端末装置に関する。 The present invention relates to a terminal device that performs a video conference via a network.
図6は、特許文献1に記載された位置検出装置を含むテレビ会議装置のブロック図であり、広域通信網500に接続されたテレビ会議端末501において、受信手段502で受信したデータはAV分離手段503により映像データと音声データと制御信号に分離され、映像データは映像復号手段504により復号された後、表示制御手段505により前記AV分離手段503からの制御信号で同期制御されてモニタ506に映像が表示される。一方音声データは音声復号手段507により復号された後、音声出力制御手段508により前記AV分離手段503からの制御信号で同期制御されてスピーカ509から音声が出力される。
FIG. 6 is a block diagram of a video conference device including the position detection device described in Patent Document 1. In the video conference terminal 501 connected to the wide
そして複数のマイクと反射版を用いて集音する高指向性マイク510より入力され音声信号受信手段511により受信された音声データは、音声符号手段514により符号化されると同時に、音声認識手段512により音声データ蓄積手段513に予め登録された会議参加者の音声データを基準に話者の方向の特定を行い、その情報を基に雲台制御手段515によりビデオカメラ516が話者の方向を向くように制御する。
The voice data input from the high directivity microphone 510 that collects sound using a plurality of microphones and a reflection plate and received by the voice
そしてビデオカメラ516により撮影された映像データは映像符号手段517により符号化され、AV多重手段518により前記音声符号手段514により符号化された音声データと共に多重化され、送信手段519により広域通信網500に送信される。
The video data shot by the video camera 516 is encoded by the video encoding means 517, multiplexed together with the audio data encoded by the audio encoding means 514 by the AV multiplexing means 518, and transmitted by the transmission means 519 to the wide
また、特許文献2では、話者のマイクに特定のランプを取り付け、画像認識により話者の位置を検出する方法もある。
しかし、特許文献1の位置検出装置を含むテレビ会議装置では、位置検出のための高価な専用のセンサを必要とする。また、特許文献2の画像認識による位置検出を行うものは位置検出の精度に比例して処理が複雑になり、大規模な回路または高性能のプロセッサと多くのメモリを必要とする。 However, the video conference apparatus including the position detection apparatus disclosed in Patent Document 1 requires an expensive dedicated sensor for position detection. In addition, the apparatus that performs position detection by image recognition in Patent Document 2 has a complicated process in proportion to the accuracy of position detection, and requires a large-scale circuit or a high-performance processor and a large amount of memory.
つまり既存の位置検出装置を含む装置では、大掛かりな位置検出装置等が必要となり、装置が高価になる問題があった。 That is, in the apparatus including the existing position detection apparatus, a large-scale position detection apparatus or the like is required, and there is a problem that the apparatus becomes expensive.
本発明はこの様な問題を解決し、容易に話者の位置を検出可能とすることを目的とする。 An object of the present invention is to solve such problems and to easily detect the position of a speaker.
本発明は、ネットワークを介してテレビ会議を行うテレビ会議システムにおいて用いられる会議端末装置であって、ネットワークより入力した音声信号に対して特定音の音声信号を付加する特定音付加手段と、前記特定音が付加された音声信号を出力する、互いに所定の間隔を有する複数のスピーカと、話者に対応した集音端末が前記複数のスピーカから出力された音声中の前記特定音を検出したことに応じて送信した所定の送信信号を受信する受信手段と、前記受信手段により前記複数の音声信号中の特定音の検出結果に係る複数の前記所定の送信信号を受信したときの到着時間差に基づいて前記テレビ会議端末と前記集音端末との位置関係を検出する位置検出手段と、前記位置検出手段の検出結果に基づいてテレビカメラの方向を制御する制御手段とを備える。 The present invention is a conference terminal device used in a video conference system that performs a video conference via a network, the specific sound adding means for adding a specific sound signal to a sound signal input from the network, and the specific A plurality of speakers that output a sound signal to which sound is added and that have a predetermined interval from each other, and a sound collecting terminal that corresponds to a speaker detects the specific sound in the sound that is output from the plurality of speakers And a receiving means for receiving a predetermined transmission signal transmitted in response, and based on a difference in arrival time when the receiving means receives a plurality of the predetermined transmission signals according to a detection result of a specific sound in the plurality of audio signals. Position detecting means for detecting a positional relationship between the video conference terminal and the sound collecting terminal; and controlling a direction of the TV camera based on a detection result of the position detecting means. And a control unit.
本発明によれば、容易に話者の位置を検出することが可能となる。 According to the present invention, it is possible to easily detect the position of a speaker.
以下、本発明のテレビ会議装置の一実施例を示す。 Hereinafter, an embodiment of the video conference apparatus according to the present invention will be described.
図1は、本発明の請求項1を満たす位置検出装置を含むテレビ会議装置の一実施例のブロック図であり、広域通信網100に接続されたテレビ会議端末101において、受信手段102で受信したデータはAV分離手段103により映像データと音声データと制御信号に分離され、映像データは映像復号手段104により復号された後、表示制御手段105により前記AV分離手段103からの制御信号で同期制御されてモニタ106に映像が表示される。一方音声データは音声復号手段107により復号された後、特定音付加手段108により既定の特定音が付加され、音声出力制御手段109により前記AV分離手段103からの制御信号で同期制御されてスピーカ110から音声が出力される。そして、話者の持つワイヤレス集音端末111において、音声入力手段112により周囲音の音声データと話者が発声した音声データが集音され、音声信号送信手段113により、テレビ会議端末101へ送信される。
FIG. 1 is a block diagram of an embodiment of a video conference apparatus including a position detection device satisfying claim 1 of the present invention, which is received by a
この音声データを受け、テレビ会議端末101側では、音声信号受信手段114により受信された音声データは、特定話者決定手段116により既定の優先度と音声データの音量とで特定の話者が決定され、その音声データについてエコー除去手段115により特定音付加手段108からの特定音送信時刻と音声受信手段114からの特定話者の集音端末の音声データ中の特定音受信時刻とで、前記音声復号手段109の復号音声データが除去された後、音声符号手段116により符号化される。
Upon receiving the audio data, the video conference terminal 101 side determines the audio data received by the audio signal receiving unit 114 by the specific speaker determining unit 116 based on the predetermined priority and the volume of the audio data. For the voice data, the echo canceling means 115 uses the specific sound transmission time from the specific
話者位置算出手段118では、特定音付加手段108からの特定音送信時刻と、音声受信手段114からの特定話者の集音端末の音声データ中の特定音受信時刻とで話者の位置を算出し、その算出結果を用いて雲台制御手段119ではビデオカメラ120が話者の方向を向くように雲台を制御する。
The speaker position calculating means 118 determines the position of the speaker based on the specific sound transmission time from the specific
ビデオカメラ120により撮影された映像データは映像符号手段121により符号化され、AV多重手段122により前記音声符号手段116により符号化された音声データと共に多重化され、送信手段123により広域通信網100に送信される。
Video data captured by the
話者の位置の決定動作について、図2、図3を用いて説明する。 The operation of determining the speaker position will be described with reference to FIGS.
前記特定音付加手段108で付加する特定音は、図2のように人間の可聴限界を下回る予め決められた2つの音声信号とする。これにより、特定音が会議参加者に聴こえることはなく、音声信号受信手段で受信した音声データから特定音を除去する必要もない。前記特定音付加手段108は前記音声復号手段107の出力音声データにこの特定音を付加し、付加した時刻を記録し、2つのスピーカ110から出力する。
The specific sound added by the specific
そして図3のように、2つのスピーカより出力された2つの特定音が、前記特定話者決定手段117により決定された話者Aの保有するワイヤレス集音端末111の音声入力手段112で集音され、音声信号送信手段113により送信されて音声信号受信手段114に届くまでの時間を測定する。そして既定のスピーカLからスピーカRまでの距離d0、スピーカLからワイヤレス集音端末までの距離d1、スピーカRからワイヤレス集音端末までの距離d1、ワイヤレス集音端末とテレビ会議端末までの距離d3と、既知である信号の伝達速度とを考慮した変換テーブルを用い、前記測定結果により話者の位置を算出する。
Then, as shown in FIG. 3, two specific sounds output from the two speakers are collected by the
以上の作業を単位時間ごとに定期的に行うことで、動的な話者の位置を認識する。 The position of the dynamic speaker is recognized by periodically performing the above operation every unit time.
以下、本発明の他の実施例を説明する。 Hereinafter, other embodiments of the present invention will be described.
図4は、本発明の一実施例のブロック図であり、チューナ300に接続された放送受信端末301において、放送信号受信手段302で受信したデータはTS分離手段303により映像データと音声データと制御信号に分離され、映像データは映像復号手段304により復号された後、表示制御手段305により前記AV分離手段303からの制御信号で同期制御されてモニタ306に映像が表示される。一方音声データは音声復号手段307により復号された後、音声加工手段309では、ユーザ位置算出手段308により算出されたユーザ位置を中心に取り囲む5つのスピーカから出力されているような擬似サラウンド効果をもたらす音声加工処理を施し、特定音付加手段310により既定の特定音が付加され、音声出力制御手段311により前記TS分離手段303からの制御信号で同期制御されて2つのスピーカ312から音声が出力される。そしてリモコン端末313において、音声入力手段314により集音されたユーザが発声する音声データとユーザが発声した音声データと、操作入力手段315によりユーザが操作した命令とがリモコン信号送信手段316により、放送受信端末301へ送信される。
FIG. 4 is a block diagram of an embodiment of the present invention. In the broadcast receiving terminal 301 connected to the tuner 300, data received by the broadcast signal receiving means 302 is controlled by the TS separating means 303 with video data, audio data, and control. After being separated into signals, the video data is decoded by the video decoding unit 304, and then the video is displayed on the monitor 306 by the display control unit 305 synchronously controlled by the control signal from the AV separation unit 303. On the other hand, after the audio data is decoded by the
このリモコン信号を受け、放送受信端末301側では、リモコン信号受信手段317により受信されたリモコン信号がリモコン信号制御手段318により、ユーザが発音した音声データは音声認識手段319に送られて操作命令に変換された後、操作入力手段315によるユーザ操作命令と共に、放送信号受信手段302、表示出力制御手段305、音声出力制御手段311に送られる。 Upon receiving this remote control signal, the broadcast receiving terminal 301 side receives the remote control signal received by the remote control signal receiving means 317 by the remote control signal control means 318, and the voice data produced by the user is sent to the voice recognition means 319 for the operation command. After the conversion, it is sent to the broadcast signal receiving means 302, the display output control means 305, and the audio output control means 311 together with a user operation command from the operation input means 315.
ユーザ位置算出手段308では、特定音付加手段310からの特定音送信時刻とリモコン信号制御手段318からの特定音受信時刻とでユーザの位置を算出し、その算出結果を前記音声加工手段309出力する。 The user position calculation means 308 calculates the position of the user from the specific sound transmission time from the specific sound addition means 310 and the specific sound reception time from the remote control signal control means 318, and outputs the calculation result to the sound processing means 309. .
ユーザの位置の決定動作について、図2、図5を用いて説明する。 The user position determination operation will be described with reference to FIGS.
前記実施例1と同様に、特定音付加手段310で付加する特定音は、図2のように人間の可聴限界を下回る予め決められた2つの音声信号とする。これにより、特定音がユーザに聴こえることはない。前記特定音付加手段310は前記音声加工手段309の出力音声データにこの特定音を付加し、付加した時刻を記録し、2つのスピーカ312より出力する。
As in the first embodiment, the specific sound added by the specific sound adding means 310 is two predetermined audio signals that are below the human audible limit as shown in FIG. Thereby, the specific sound is not heard by the user. The specific sound adding means 310 adds this specific sound to the output sound data of the sound processing means 309, records the added time, and outputs it from the two
そして図5のように、2つのスピーカより出力された2つの特定音が、リモコン端末313の音声入力手段314で集音され、リモコン信号送信手段316により送信されてリモコン信号受信手段114に届くまでの時間を測定する。そして既定のスピーカLからスピーカRまでの距離d0、スピーカLからリモコン端末までの距離d1、スピーカRからリモコン端末までの距離d1、リモコン端末と放送受信端末までの距離d3と、既知である信号の伝達速度とを考慮した変換テーブルを用い、前記測定結果によりユーザの位置を算出する。 Then, as shown in FIG. 5, two specific sounds output from the two speakers are collected by the voice input means 314 of the remote control terminal 313 and transmitted by the remote control signal transmission means 316 until reaching the remote control signal reception means 114. Measure the time. Then, a predetermined distance d0 from the speaker L to the speaker R, a distance d1 from the speaker L to the remote control terminal, a distance d1 from the speaker R to the remote control terminal, a distance d3 from the remote control terminal to the broadcast receiving terminal, and a known signal A user's position is calculated from the measurement result using a conversion table that considers the transmission speed.
以上の作業を単位時間ごとに定期的に行うことで、動的なユーザの位置を認識する。 By periodically performing the above operation every unit time, the position of the dynamic user is recognized.
Claims (7)
ネットワークより入力した音声信号に対して特定音の音声信号を付加する特定音付加手段と、
前記特定音が付加された音声信号を出力する、互いに所定の間隔を有する複数のスピーカと、
話者に対応した集音端末が前記複数のスピーカから出力された音声中の前記特定音を検出したことに応じて送信した所定の送信信号を受信する受信手段と、
前記受信手段により前記複数の音声信号中の特定音の検出結果に係る複数の前記所定の送信信号を受信したときの到着時間差に基づいて前記テレビ会議端末と前記集音端末との位置関係を検出する位置検出手段と、
前記位置検出手段の検出結果に基づいてテレビカメラの方向を制御する制御手段とを備える端末装置。 A conference terminal device used in a video conference system that performs a video conference via a network,
Specific sound adding means for adding a sound signal of a specific sound to a sound signal input from a network;
A plurality of speakers that output a sound signal to which the specific sound is added and that have a predetermined interval from each other;
Receiving means for receiving a predetermined transmission signal transmitted in response to detection of the specific sound in the sound output from the plurality of speakers by a sound collection terminal corresponding to a speaker;
The positional relationship between the video conference terminal and the sound collecting terminal is detected based on the arrival time difference when the plurality of predetermined transmission signals related to the detection result of the specific sound in the plurality of audio signals are received by the receiving means. Position detecting means for
And a control unit that controls a direction of the television camera based on a detection result of the position detection unit.
前記受信手段は前記集音端末から送信された音声を受信することを特徴とする請求項1記載の端末装置。 The sound collecting terminal further collects the voice of the speaker and transmits it to the receiving means,
The terminal device according to claim 1, wherein the receiving unit receives a voice transmitted from the sound collecting terminal.
The terminal device according to claim 1, wherein the frequency of the specific sound is an inaudible region.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003374311A JP2005142640A (en) | 2003-11-04 | 2003-11-04 | Terminal apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003374311A JP2005142640A (en) | 2003-11-04 | 2003-11-04 | Terminal apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005142640A true JP2005142640A (en) | 2005-06-02 |
Family
ID=34686069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003374311A Withdrawn JP2005142640A (en) | 2003-11-04 | 2003-11-04 | Terminal apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005142640A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010523025A (en) * | 2007-05-10 | 2010-07-08 | ▲ホア▼▲ウェイ▼技術有限公司 | System and method for controlling an image acquisition device for performing a target location search |
JP5318258B1 (en) * | 2012-07-03 | 2013-10-16 | 株式会社東芝 | Sound collector |
CN108063910A (en) * | 2013-08-01 | 2018-05-22 | 波利康公司 | For the camera base and its method in video conferencing system |
-
2003
- 2003-11-04 JP JP2003374311A patent/JP2005142640A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010523025A (en) * | 2007-05-10 | 2010-07-08 | ▲ホア▼▲ウェイ▼技術有限公司 | System and method for controlling an image acquisition device for performing a target location search |
US8363119B2 (en) | 2007-05-10 | 2013-01-29 | Huawei Technologies Co., Ltd. | System and method for controlling an image collecting device to carry out a target location |
JP5318258B1 (en) * | 2012-07-03 | 2013-10-16 | 株式会社東芝 | Sound collector |
CN108063910A (en) * | 2013-08-01 | 2018-05-22 | 波利康公司 | For the camera base and its method in video conferencing system |
CN108063910B (en) * | 2013-08-01 | 2021-03-19 | 波利康公司 | Camera base for video conference system and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1906707B1 (en) | Audio transmission system and communication conference device | |
JP5857674B2 (en) | Image processing apparatus and image processing system | |
US6185152B1 (en) | Spatial sound steering system | |
EP2323425A1 (en) | Method and device for generating, playing audio signals, and processing system for audio signals | |
JP6289121B2 (en) | Acoustic signal processing device, moving image photographing device, and control method thereof | |
US9226070B2 (en) | Directional sound source filtering apparatus using microphone array and control method thereof | |
US8064754B2 (en) | Method and communication apparatus for reproducing a moving picture, and use in a videoconference system | |
JP2016146547A (en) | Sound collection system and sound collection method | |
JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
KR20150139934A (en) | Audio apparatus | |
EP4064692A1 (en) | Smart audio muting in a videoconferencing system | |
WO2017150103A1 (en) | Audio processing device, image processing device, microphone array system, and audio processing method | |
US6959095B2 (en) | Method and apparatus for providing multiple output channels in a microphone | |
CN103155536A (en) | Image-processing device, method, and program | |
JP2005184386A (en) | Sound collecting/video recording device | |
US11749293B2 (en) | Audio signal processing device | |
JP5120020B2 (en) | Audio communication system with image, audio communication method with image, and program | |
JP2005142640A (en) | Terminal apparatus | |
EP1266538B1 (en) | Spatial sound steering system | |
WO2018173139A1 (en) | Imaging/sound acquisition device, sound acquisition control system, method for controlling imaging/sound acquisition device, and method for controlling sound acquisition control system | |
KR100195724B1 (en) | Method of adjusting video camera in image conference system | |
WO2018088210A1 (en) | Information processing device and method, and program | |
JP7111202B2 (en) | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM | |
KR20090053464A (en) | Method for processing an audio signal and apparatus for implementing the same | |
US11694705B2 (en) | Sound signal processing system apparatus for avoiding adverse effects on speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070109 |