KR102623419B1 - A method of collecting vocal data using a user's terminal and performing vocal evaluation using it - Google Patents
A method of collecting vocal data using a user's terminal and performing vocal evaluation using it Download PDFInfo
- Publication number
- KR102623419B1 KR102623419B1 KR1020230114209A KR20230114209A KR102623419B1 KR 102623419 B1 KR102623419 B1 KR 102623419B1 KR 1020230114209 A KR1020230114209 A KR 1020230114209A KR 20230114209 A KR20230114209 A KR 20230114209A KR 102623419 B1 KR102623419 B1 KR 102623419B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- vocal
- data
- evaluation model
- confirmed
- Prior art date
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 459
- 238000011156 evaluation Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title description 76
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 55
- 238000013210 evaluation model Methods 0.000 claims description 290
- 230000033764 rhythmic process Effects 0.000 claims description 60
- 238000012790 confirmation Methods 0.000 claims description 57
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 44
- 230000008859 change Effects 0.000 claims description 25
- 210000001260 vocal cord Anatomy 0.000 claims description 23
- 238000005452 bending Methods 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000013480 data collection Methods 0.000 claims description 5
- 230000000241 respiratory effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 47
- 238000007781 pre-processing Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 18
- 230000007115 recruitment Effects 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/371—Vital parameter control, i.e. musical instrument control based on body signals, e.g. brainwaves, pulsation, temperature or perspiration; Biometric information
- G10H2220/386—Vital parameter control, i.e. musical instrument control based on body signals, e.g. brainwaves, pulsation, temperature or perspiration; Biometric information using genetic information [DNA] or unique characterizing features of individuals, e.g. fingerprints, iris, facial or vocal features
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
일실시예에 따른 장치는 사용자의 단말로부터 사용자의 보컬 데이터를 획득하고, 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하고, 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성하고, 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말로 제공한다.A device according to an embodiment acquires the user's vocal data from the user's terminal, obtains song information based on the user's vocal data, and applies the user's vocal data and song information to a vocal evaluation artificial intelligence model to provide the user with a vocal evaluation. Output evaluation result data, calculate the user's vocal level based on the user's evaluation result data, generate user's vocalization properties based on the user's evaluation result data, and calculate the user's vocal level and user's vocalization. Properties are provided to the user's terminal.
Description
아래 실시예들은 사용자의 단말을 이용하여 보컬 데이터를 수집하고, 이를 이용하여 보컬 평가를 수행하는 기술에 관한 것이다. The following embodiments relate to technology for collecting vocal data using a user's terminal and performing vocal evaluation using this.
최근 들어 방송통신기술의 발전으로 연예인들의 활동폭이 넓어지고 그들의 일상 생활이 방송 프로그램을 통해 많이 노출되면서 연예인 지망자가 늘어나고 있다. 일반인이 연예인이 되기 위해서는 전문 학원을 다니거나 기획사의 오프라인 오디션에 참가하는 등의 노력을 들여야 한다. 기획사들은 연예인 지망생을 선발하기 위해 일반인을 길거리에서 캐스팅하거나 주기적으로 오디션을 하여 연예인 지망생을 선발한다. 연예인 지망자가 스스로 노력을 할 때나, 기획사들이 직접 연예인 지망자를 물색하여 캐스팅할 때 등, 어느 경우에나 많은 시간과 비용 그리고 노력이 필요하다.Recently, with the development of broadcasting and communication technology, the scope of celebrities' activities has expanded and their daily lives have been exposed through broadcasting programs, leading to an increase in the number of aspiring celebrities. In order for an ordinary person to become a celebrity, they must put in effort, such as attending a specialized academy or participating in an agency's offline audition. To select aspiring celebrities, agencies cast ordinary people on the street or conduct periodic auditions to select aspiring celebrities. In both cases, a lot of time, money, and effort are required, such as when aspiring celebrities make efforts on their own or when agencies directly search for and cast aspiring celebrities.
한편, 유튜브와 같은 온라인 동영상 서비스 기술이 발전하면서 연예인 지망자들이 자기의 끼와 실력을 발휘할 수 있는 기회가 많아졌다. 연예인 지망자들은 모바일 폰이나 캠코더 등으로 자신이 노래하는 모습이나 춤추는 모습을 동영상으로 촬영한 후 유튜브 등에 올려 대중의 관심을 유도하는 방식으로 연예인이 되기 위해 노력하고 있다. 그러나, 이러한 온라인 오디션은 노래하는 모습 또는 춤추는 모습을 촬영한 동영상을 올려 놓은 후 단순히 클릭 수만으로 대중의 관심을 유도하는 것으로 참가자의 실력을 정확하게 평가하기 어렵다.Meanwhile, as online video service technology such as YouTube has developed, opportunities for aspiring celebrities to demonstrate their talents and skills have increased. Aspiring celebrities are trying to become celebrities by recording videos of themselves singing or dancing using mobile phones or camcorders and uploading them to YouTube to attract public attention. However, in these online auditions, it is difficult to accurately evaluate the participants' skills because they upload videos of themselves singing or dancing and then attract the public's interest simply by clicking on them.
또한, 포털 사이트 등에서 제공하는 키워드 검색 등에 의한 인기순위는 오버추어와 같은 광고 기능에 의해 객관적이지 못한 문제점이 있다. 아울러 온라인에서 인기가 있는 사람이라도 기획사에 캐스팅될 경우 여전히 다년간의 전문 트레이닝을 받아야 하고 기획사는 많은 비용과 시간을 투자해야 한다.In addition, there is a problem in that popularity rankings based on keyword searches provided by portal sites, etc. are not objective due to advertising functions such as Overture. In addition, even if a person is popular online, if he or she is cast by an agency, he or she must still undergo years of professional training and the agency must invest a lot of money and time.
이러한 환경에서, 소위 K-POP이라고 불리는 한류 열풍에 따라 한국의 음악 산업은 급속도로 발전하였다. 이에 따라, 가수 또는 아이돌을 지망하는 지망생들이 증가하였고, 이들 가수 지망생들을 대상으로 하는 시장 또한 급상승하고 있다. 그러나, 연예인 지망생의 급증에도 불구하고 연예인 지망생이 연예인으로 데뷔할 수 있는 무대(즉, 오디션 또는 기획사)는 한정되어 있고, 따라서 성공적인 데뷔를 위해서는 자신의 발성과 잘 맞는 기획사를 찾는 것이 중요하게 된다.In this environment, the Korean music industry developed rapidly following the Korean Wave, the so-called K-POP. Accordingly, the number of aspiring singers or idols has increased, and the market for these aspiring singers is also rapidly rising. However, despite the rapid increase in the number of aspiring celebrities, the stages (i.e., auditions or agencies) where aspiring celebrities can debut as celebrities are limited, and therefore, for a successful debut, it is important to find an agency that suits one's voice.
하지만, 지망생들 대부분은 연예 기획사들 각각에 대한 정보를 얻기가 어려울 뿐더러, 자신의 발성 또는 목소리에 관한 적절한 지표가 없어 자신에게 적합한 보컬 트레이닝을 선정하는데 어려움이 있었다.However, most of the aspirants had difficulty selecting the vocal training that was right for them because it was difficult to obtain information about each entertainment agency and there were no appropriate indicators regarding their vocalization or voice.
따라서, 사용자의 보컬 데이터를 통해 객관적으로 사용자의 보컬 평가를 수행하는 기술이 요구된다.Therefore, there is a need for technology to objectively evaluate a user's vocals through the user's vocal data.
실시예들은 사용자의 단말로부터 획득한 사용자의 보컬 데이터를 기초로, 사용자의 보컬 평가를 수행하고자 한다.Embodiments seek to perform a user's vocal evaluation based on the user's vocal data obtained from the user's terminal.
실시예들은 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨 및 사용자의 발성 속성을 생성하고자 한다.Embodiments seek to generate a user's vocal level and user's vocalization attributes through a vocal evaluation artificial intelligence model.
실시예들은 사용자의 단말로부터 획득한 음성 데이터 중 보컬 평가를 받을 보컬 데이터를 선정하고자 한다.Embodiments seek to select vocal data to be evaluated for vocals among voice data acquired from a user's terminal.
일실시예에 따르면, 사용자의 단말을 이용한 보컬 데이터 수집 및 이를 이용한 보컬 평가 방법은, 사용자의 단말로부터 상기 사용자의 보컬 데이터를 획득하는 단계; 상기 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하는 단계; 상기 사용자의 보컬 데이터 및 상기 곡 정보를 보컬 평가 인공지능 모델에 적용하여 상기 사용자의 평가 결과 데이터를 출력하는 단계; 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계; 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계; 및 상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 상기 사용자의 단말로 제공하는 단계를 포함한다.According to one embodiment, a vocal data collection method using a user's terminal and a vocal evaluation method using the same include obtaining the user's vocal data from the user's terminal; Obtaining song information based on the user's vocal data; Applying the user's vocal data and the song information to a vocal evaluation artificial intelligence model to output the user's evaluation result data; calculating the user's vocal level based on the user's evaluation result data; generating vocalization attributes of the user based on the user's evaluation result data; and providing the user's vocal level and the user's vocalization attributes to the user's terminal.
상기 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함하고, 상기 항목 평가 모델은 상기 곡 정보를 통해 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 상기 사용자의 보컬 데이터를 통해 상기 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 상기 음의 높이인 제2 높이를 파악하고, 상기 제1 거리와 상기 제2 거리를 비교하고, 상기 제1 높이와 상기 제2 높이를 비교하여 상기 제1 거리와 상기 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 상기 제1 높이와 상기 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 O를 출력하고, 상기 제1 거리와 상기 제2 거리의 차이가 상기 제1 기준 차이 내에 포함되어 있지 않거나, 상기 제1 높이와 상기 제2 높이의 차이가 상기 제2 기준 차이 내에 포함되어 있지 않다고 확인되면 X를 출력하는 음감 평가 모델, 상기 곡 정보를 통해 기준 BPM을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 BPM을 벗어난 구간을 생성하고, 상기 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 O를 출력하고, 상기 기준 BPM을 벗어난 구간이 상기 기준 시간보다 길거나 동일하다고 확인되면 X를 출력하는 템포감 평가 모델, 상기 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 파악하여, 상기 비브라토가 미리 설정한 제1 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 비브라토가 상기 제1 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 호흡 컨트롤 평가 모델, 상기 곡 정보를 통해 기준 리듬을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 파악하여, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 미리 설정한 제2 기준 횟수를 만족하였다고 포함되었다고 확인되면 O를 출력하고, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 상기 제2 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 리듬감 평가 모델, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 음역대를 확인하고, 상기 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 상기 기준 고음 높이에서 음의 변화가 미리 설정된 기준 변화보다 작다고 확인되면 O를 출력하고, 상기 기준 고음 높이에서 음의 변화가 상기 기준 보다 크거나 같다고 확인되면 X를 출력하는 고음 안정감 평가 모델, 상기 사용자의 보컬 데이터를 통해 딕션의 강세 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 소리의 질감 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 볼륨의 크기 변화 횟수를 생성하여, 상기 딕션의 강세 변화 횟수, 상기 소리의 질감 변화 횟수, 및 상기 볼륨의 크기 변화 횟수를 합산한 횟수인 상기 사용자의 표현 횟수가 미리 설정된 제3 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 사용자의 표현 횟수가 상기 제3 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 표현력 평가 모델, 및 상기 음감 평가 모델, 상기 템포감 평가 모델, 상기 호흡 컨트롤 평가 모델, 상기 리듬감 평가 모델, 상기 고음 안정감 평가 모델, 상기 표현력 평가 모델에서 모두 O가 출력된 경우, 상기 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 파악하여, 상기 임팩트가 있는 부분이 있다고 확인되면 O를 출력하고, 상기 임팩트가 있는 부분이 없다고 확인되면 X를 출력하는 완성도 평가 모델을 포함하고, 상기 발성 속성 평가 모델은 상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 주파수를 확인하고, 상기 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 H를 출력하고, 상기 사용자의 평균 음성 주파수가 상기 기준 주파수보다 낮거나 동일하다고 확인되면 L을 출력하는 톤 평가 모델, 및 상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 데시벨을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 성대접지 여부를 확인하여, 상기 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 상기 사용자의 성대가 접지되었다고 확인되면 M을 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 크고 상기 사용자의 성대가 접지되지 않았다고 확인되면 F를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되었다고 확인되면 O를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되지 않았다고 확인되면 S를 출력하는 속성 평가 모델을 포함한다.The vocal evaluation artificial intelligence model includes an item evaluation model and a vocal attribute evaluation model, and the item evaluation model is a first distance, which is the distance between the sounds in the first set section, and a second, the height of the sound, through the song information. 1 Determine the height, determine the second distance, which is the distance between the sound of the second set section corresponding to the first set section, and the second height, which is the height of the sound, through the user's vocal data, and Compare the first distance and the second distance, and compare the first height and the second height so that the difference between the first distance and the second distance is within a preset first reference difference, and the first height If it is confirmed that the difference between the first height and the second height is within the preset second reference difference, O is output, and if the difference between the first distance and the second distance is not included within the first reference difference, or the first A pitch evaluation model that outputs A tempo evaluation model that generates a section that deviates from the standard BPM, outputs O if the section that deviates from the standard BPM is confirmed to be shorter than the preset standard time, and outputs , the number of times the vibrato is included is determined through the user's vocal data, and when it is confirmed that the vibrato satisfies the first standard number of times set in advance, O is output, and the vibrato does not satisfy the first standard number of times is output. A breathing control evaluation model that outputs If it is confirmed that the number of times that the corresponding bending and vibration is included satisfies the second preset standard number, O is output, and the number of times that the bending and vibration that is included corresponding to the reference rhythm is included satisfies the second standard number of times. A rhythm evaluation model that outputs A treble stability evaluation model that outputs O if it is confirmed that is smaller than the preset standard change, and outputs Generating the number of changes, generating the number of changes in the texture of the sound through the user's vocal data, generating the number of changes in volume size through the user's vocal data, the number of changes in the accent of the diction, and the number of changes in the texture of the sound If it is confirmed that the user's expression count, which is the sum of the number of times and the number of volume size changes, satisfies the preset third standard count, O is output, and if the user's expression count does not satisfy the third standard count, An expression evaluation model that outputs In this case, a completeness evaluation model that determines whether there is an impactful part through the user's vocal data, outputs O if it is confirmed that there is an impact part, and outputs an X if it is confirmed that there is no part with an impact. Includes, the speech attribute evaluation model checks the user's average voice frequency through the user's vocal data, and outputs H when it is confirmed that the user's average voice frequency is higher than a preset reference frequency, and the user's average voice frequency is confirmed to be higher than the preset reference frequency. A tone evaluation model that outputs L when it is confirmed that the average voice frequency is lower than or equal to the reference frequency, and confirms the user's average voice decibel through the user's vocal data, and determines the user's average voice decibel through the user's vocal data. Check whether the user's vocal cords are grounded, and if the user's average voice decibel is greater than a preset reference decibel and it is confirmed that the user's vocal cords are grounded, M is output, and the user's average voice decibel is greater than the reference decibel and the user's vocal cords are grounded. If it is confirmed that the user's vocal cords are grounded, output F, and if it is confirmed that the user's average voice decibel is less than or equal to the reference decibel and the user's vocal cords are grounded, output O, and if the user's average voice decibel is less than or equal to the reference decibel, output O. It includes an attribute evaluation model that outputs S if it is less than or equal to and it is confirmed that the user's vocal cords are not grounded.
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계는, 상기 사용자의 종합 보컬 레벨을 산출하는 단계, 및 항목 별 보컬 레벨을 산출하는 단계를 포함하고, 상기 사용자의 종합 보컬 레벨을 산출하는 단계는 상기 항목 평가 모델을 통해 출력된 O의 총 개수를 확인하는 단계, 및 상기 O의 총 개수에 +1을 적용하여 상기 사용자의 종합 보컬 레벨을 생성하는 단계를 포함하고, 항목 별 보컬 레벨을 산출하는 단계는, 상기 사용자의 종합 보컬 레벨이 생성되면, 상기 보컬 레벨을 산출하고자 하는 항목인 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인지, X인지 여부를 확인하는 단계, 상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여하는 단계, 상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 상기 확인 항목이 완성도인지 여부를 판단하는 단계, 상기 확인 항목이 완성도라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계, 및 상기 확인 항목이 완성도가 아니라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계를 포함하고, 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계는, 상기 톤 평가 모델을 통해 출력된 값과 상기 속성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LM, HS, LS, HO, LO 중 하나를 상기 사용자의 발성 속성으로 생성하는 단계이다.Based on the user's evaluation result data, calculating the user's vocal level includes calculating the user's overall vocal level, and calculating the vocal level for each item, and calculating the user's overall vocal level. The step of calculating the level includes checking the total number of O output through the item evaluation model, and applying +1 to the total number of O to generate the user's comprehensive vocal level, The step of calculating the individual vocal level includes, when the user's comprehensive vocal level is generated, checking whether the output value of the item evaluation model corresponding to the confirmation item for which the vocal level is to be calculated is O or X. , if the output value of the item evaluation model corresponding to the confirmation item is confirmed to be O, assigning the vocal level of the confirmation item as a vocal level with the same level value as the user's comprehensive vocal level, corresponding to the confirmation item. If the output value of the item evaluation model is confirmed to be A step of assigning the vocal level of the level value generated by applying 3, and if it is confirmed that the confirmation item is not complete, the level value generated by applying -2 to the user's comprehensive vocal level as the vocal level of the confirmation item. A step of assigning a vocal level of, and generating a vocalization attribute of the user based on the evaluation result data of the user, includes a value output through the tone evaluation model and a value output through the attribute evaluation model. This is the step of combining values to create one of HF, LF, HM, LM, HS, LS, HO, and LO as the user's vocalization attribute.
사용자의 단말로부터 상기 사용자의 보컬 데이터를 획득하는 단계;는 상기 사용자의 단말을 통해 상기 사용자의 음성이 인식되면, 상기 사용자의 음성이 인식된 시점부터 상기 사용자의 음성이 미리 설정된 설정 시간 동안 인식되지 않는 시점까지의 음성 데이터를 획득하는 단계, 상기 음성 데이터를 기초로, 상기 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 미리 설정된 목표 차이보다 큰 높낮이 변화를 확인하고, 상기 목표 차이보다 큰 높낮이 변화의 횟수를 확인 횟수로 생성하는 단계, 상기 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정하는 단계, 상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계를 포함하고, 상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계는, 상기 후보 음성 데이터에 대응하는 위치 정보를 확인하는 단계, 상기 위치 정보를 기초로, 미리 설정된 유효 위치와 일치하는 위치 정보가 있는지 여부를 확인하는 단계, 상기 유효 위치와 일치하는 위치 정보가 있다고 확인되면, 상기 유효 위치와 일치하는 위치 정보를 갖는 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계, 및 상기 유효 위치와 일치하는 위치 정보가 없다고 확인되면, 상기 후보 음성 데이터 중 임의로 하나를 추출하여 상기 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계를 포함한다.Obtaining the user's vocal data from the user's terminal; when the user's voice is recognized through the user's terminal, the user's voice is not recognized for a preset set time from the time the user's voice is recognized. Acquiring voice data up to the point where the voice data is not heard, based on the voice data, identifying a pitch change whose pitch difference is greater than a preset target difference among the pitch changes included in the voice data, and determining a pitch change greater than the target difference. Generating the number of times as the number of confirmations, selecting voice data whose confirmation number is greater than a preset target number as candidate voice data, and extracting one of the candidate voice data and selecting it as the user's vocal data. And the step of extracting one of the candidate voice data and selecting it as the user's vocal data includes checking location information corresponding to the candidate voice data, and based on the location information, a location matching a preset effective location. Checking whether there is information; If it is confirmed that there is location information matching the effective location, selecting candidate voice data having location information matching the effective location as the user's vocal data; and When it is determined that there is no matching location information, randomly extracting one of the candidate voice data and selecting the extracted candidate voice data as the user's vocal data.
상기 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 단계 이후에 평가자로부터 획득한 평가를 기초로, 상기 사용자의 보컬 레벨을 보정하여 상기 사용자의 최종 보컬 레벨을 생성하는 단계를 더 포함하고, 평가자로부터 획득한 평가를 기초로, 상기 사용자의 보컬 레벨을 보정하여 상기 사용자의 최종 보컬 레벨을 생성하는 단계는, 미리 설정된 목표 기간 동안 상기 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드하는 단계, 상기 보컬 평가 플랫폼을 통해 상기 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 상기 평가자의 정보 및 상기 평가자의 평가 점수를 획득하는 단계, 상기 평가자의 정보 및 상기 곡 정보를 기초로, 상기 평가자가 원곡자인지 여부를 판단하는 단계, 상기 평가자가 원곡자로 확인되면, 상기 평가자의 평가 점수에 제1 가중치를 적용하는 단계, 상기 평가자가 원곡자가 아닌 것으로 확인되면, 상기 평가자가 음악과 관련 있는 직업인지 여부를 판단하는 단계, 상기 평가자가 음악과 관련 있는 직업이라고 확인되면, 상기 평가자의 평가 점수에 상기 제1 가중치보다 작은 제2 가중치를 적용하는 단계, 상기 평가자가 음악과 관련 없는 직업이라고 확인되면, 상기 평가자의 평가 점수에 상기 제2 가중치보다 작은 제3 가중치를 적용하는 단계, 및 가중치가 적용된 상기 평가자의 평가 점수를 기초로, 상기 사용자의 보컬 레벨을 보정하는 단계를 포함한다.After calculating the user's vocal level based on the user's evaluation result data, it further includes generating the user's final vocal level by correcting the user's vocal level based on the evaluation obtained from the evaluator. And, based on the evaluation obtained from the evaluator, correcting the user's vocal level to generate the user's final vocal level includes uploading the user's vocal data to a vocal evaluation platform for a preset target period, Obtaining the evaluator's information and the evaluator's evaluation score from the evaluator's terminal who wishes to evaluate the user's vocal data through the vocal evaluation platform, based on the evaluator's information and the song information, the evaluator determining whether the evaluator is an original songwriter; if the evaluator is confirmed to be the original songwriter, applying a first weight to the evaluator's evaluation score; if it is confirmed that the evaluator is not the original songwriter, whether the evaluator has a job related to music Determining, if it is confirmed that the evaluator has an occupation related to music, applying a second weight smaller than the first weight to the evaluator's evaluation score, if it is confirmed that the evaluator has an occupation unrelated to music, Applying a third weight smaller than the second weight to the evaluator's evaluation score, and correcting the user's vocal level based on the weighted evaluation score of the evaluator.
사용자의 단말을 이용한 보컬 데이터 수집 및 이를 이용한 보컬 평가 방법은, 상기 사용자의 보컬 데이터에 대응하는 위치 정보를 확인하고, 위치 정보를 기초로, 오디션 가능 지역을 선정하는 단계; 상기 오디션 가능 지역에서 진행될 제1 오디션을 소개하는 콘텐츠인 제1 콘텐츠가 제작되어 상기 제1 콘텐츠가 오디션 모집 사이트에 업로드 된 것을 확인하는 단계; 상기 사용자의 단말에서 상기 제1 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 오디션 가능 지역 내에 위치한 기획사들 중 제1 기획사에서 업로드한 콘텐츠인 제2 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 상기 사용자의 단말에서 상기 제1 콘텐츠에 이어서 상기 제2 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 오디션 가능 지역 내에 위치한 기획사들 중 제2 기획사에서 업로드한 콘텐츠인 제3 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 상기 사용자의 단말에서 상기 제2 콘텐츠에 이어서 상기 제3 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 사용자의 단말에서 상기 제3 콘텐츠에 이어서 상기 제1 콘텐츠가 재생되어 표시되도록 제어하는 단계; 및 상기 사용자의 단말에서 상기 제1 콘텐츠에 이어서 상기 제2 콘텐츠 및 상기 제3 콘텐츠가 함께 재생되어 표시되도록 제어하는 단계를 더 포함한다.A vocal data collection method using a user's terminal and a vocal evaluation method using the same include the steps of: checking location information corresponding to the user's vocal data and selecting an audition area based on the location information; Confirming that first content, which is content introducing the first audition to be held in the audition available area, has been produced and the first content has been uploaded to an audition recruitment site; Controlling the first content to be played and displayed on the user's terminal; When the second content, which is content uploaded by a first agency among agencies located within the audition available area, is uploaded to the audition recruitment site, the user's terminal is controlled to play and display the second content following the first content. steps; When third content, which is content uploaded by a second agency among agencies located within the audition available area, is uploaded to the audition recruitment site, the user's terminal is controlled to play and display the third content following the second content. steps; Controlling the user's terminal to play and display the first content following the third content; and controlling the second content and the third content to be played and displayed together following the first content in the user's terminal.
일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.The device according to one embodiment may be combined with hardware and controlled by a computer program stored in a medium to execute any one of the above-described methods.
실시예들은 사용자의 단말로부터 획득한 사용자의 보컬 데이터를 기초로, 사용자의 보컬 평가를 수행할 수 있다.Embodiments may perform a user's vocal evaluation based on the user's vocal data obtained from the user's terminal.
실시예들은 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨 및 사용자의 발성 속성을 생성할 수 있다.Embodiments may generate the user's vocal level and the user's vocalization attributes through a vocal evaluation artificial intelligence model.
실시예들은 사용자의 단말로부터 획득한 음성 데이터 중 보컬 평가를 받을 보컬 데이터를 선정할 수 있다.Embodiments may select vocal data to be evaluated for vocals among voice data acquired from the user's terminal.
한편, 실시예들에 따른 효과들은 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 해당 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.Meanwhile, the effects according to the embodiments are not limited to those mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below.
도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 사용자의 보컬 데이터를 기초로, 보컬 평가를 수행하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 보컬 평가 인공지능 모델을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 5는 일실시예에 따른 사용자의 종합 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 6은 일실시예에 따른 항목 별 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 각 항목에 대응하는 평가 모델의 출력 값을 기초로 생성된 보컬 레벨 및 보컬 등급의 예시 도면이다.
도 8은 일실시예에 따른 사용자의 발성 속성을 생성하는 과정을 설명하기 위한 순서도이다.
도 9는 일실시예에 따른 발성 속성에 관한 도면이다.
도 10은 일실시예에 따른 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말로 제공하기 위한 사용자의 단말의 출력 인터페이스를 설명하기 위한 도면이다.
도 11은 일실시예에 따른 보컬 데이터를 선정하는 과정을 설명하기 위한 순서도이다.
도 12는 일실시예에 따른 후보 음성 데이터 중 보컬 데이터를 선정하는 과정을 설명하기 위한 순서도이다.
도 13은 일실시예에 따른 사용자의 보컬 레벨을 보정하는 과정을 설명하기 위한 순서도이다.
도 14는 일실시예에 따른 사용자의 단말에 오디션 가능 지역에서 진행중인 오디션 콘텐츠를 제공하는 과정을 설명하기 위한 순서도이다.
도 15는 일실시예에 따른 장치의 구성의 예시도이다.1 is a diagram for explaining the configuration of a system according to an embodiment.
Figure 2 is a flowchart for explaining a process of performing vocal evaluation based on the user's vocal data according to an embodiment.
Figure 3 is a diagram for explaining a vocal evaluation artificial intelligence model according to an embodiment.
Figure 4 is a flowchart for explaining a process of calculating a user's vocal level based on the user's evaluation result data according to an embodiment.
Figure 5 is a flowchart for explaining the process of calculating the user's comprehensive vocal level according to one embodiment.
Figure 6 is a flowchart for explaining the process of calculating vocal levels for each item according to an embodiment.
Figure 7 is an example diagram of vocal levels and vocal grades generated based on output values of an evaluation model corresponding to each item including pitch, tempo, breathing, rhythm, high pitch, expressiveness, and completeness according to an embodiment.
Figure 8 is a flow chart to explain the process of generating user's vocalization attributes according to one embodiment.
Figure 9 is a diagram related to vocalization properties according to one embodiment.
FIG. 10 is a diagram illustrating an output interface of a user's terminal for providing the user's vocal level and user's vocalization properties to the user's terminal, according to an embodiment.
Figure 11 is a flowchart for explaining the process of selecting vocal data according to an embodiment.
Figure 12 is a flowchart for explaining the process of selecting vocal data from candidate voice data according to an embodiment.
Figure 13 is a flowchart for explaining a process for correcting a user's vocal level according to an embodiment.
FIG. 14 is a flowchart illustrating a process for providing audition content in progress in an audition available area to a user's terminal according to an embodiment.
Figure 15 is an exemplary diagram of the configuration of a device according to an embodiment.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.Hereinafter, embodiments will be described in detail with reference to the attached drawings. However, various changes can be made to the embodiments, so the scope of the patent application is not limited or limited by these embodiments. It should be understood that all changes, equivalents, or substitutes for the embodiments are included in the scope of rights.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only and may be modified and implemented in various forms. Accordingly, the embodiments are not limited to the specific disclosed form, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical spirit.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various components, but these terms should be interpreted only for the purpose of distinguishing one component from another component. For example, a first component may be named a second component, and similarly, the second component may also be named a first component.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.When a component is referred to as being “connected” to another component, it should be understood that it may be directly connected or connected to the other component, but that other components may exist in between.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the examples are for descriptive purposes only and should not be construed as limiting. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as “comprise” or “have” are intended to designate the presence of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification, but are not intended to indicate the presence of one or more other features. It should be understood that this does not exclude in advance the possibility of the existence or addition of elements, numbers, steps, operations, components, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as generally understood by a person of ordinary skill in the technical field to which the embodiments belong. Terms defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and unless explicitly defined in the present application, should not be interpreted in an ideal or excessively formal sense. No.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, when describing with reference to the accompanying drawings, identical components will be assigned the same reference numerals regardless of the reference numerals, and overlapping descriptions thereof will be omitted. In describing the embodiments, if it is determined that detailed descriptions of related known technologies may unnecessarily obscure the gist of the embodiments, the detailed descriptions are omitted.
실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.Embodiments may be implemented in various types of products such as personal computers, laptop computers, tablet computers, smart phones, televisions, smart home appliances, intelligent vehicles, kiosks, and wearable devices.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙(Rule) 기반의 스마트 시스템과 달리 기계가 스스로 학습하고 판단하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반의 스마트 시스템은 점차 심층 학습(Deep Learning) 기반 인공지능 시스템으로 대체되고 있다.An artificial intelligence (AI) system is a computer system that implements human-level intelligence, and unlike existing rule-based smart systems, it is a system in which machines learn and make decisions on their own. As artificial intelligence systems are used, their recognition rates improve and they can more accurately understand user preferences, and existing rule-based smart systems are gradually being replaced by deep learning-based artificial intelligence systems.
인공지능 기술은 기계 학습 및 기계 학습을 활용한 요소기술들로 구성된다. 기계 학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 심층 학습 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.Artificial intelligence technology consists of machine learning and element technologies using machine learning. Machine learning is an algorithmic technology that classifies/learns the characteristics of input data on its own, and elemental technology is a technology that mimics the functions of the human brain such as cognition and judgment by utilizing machine learning algorithms such as deep learning, including linguistic understanding and visual It consists of technical areas such as understanding, reasoning/prediction, knowledge expression, and motion control.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.The various fields where artificial intelligence technology is applied are as follows. Linguistic understanding is a technology that recognizes and applies/processes human language/characters and includes natural language processing, machine translation, conversation systems, question and answer, and voice recognition/synthesis. Visual understanding is a technology that recognizes and processes objects like human vision, and includes object recognition, object tracking, image search, person recognition, scene understanding, spatial understanding, and image improvement. Inferential prediction is a technology that judges information to make logical inferences and predictions, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendations. Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data creation/classification) and knowledge management (data utilization). Motion control is a technology that controls the autonomous driving of vehicles and the movement of robots, and includes motion control (navigation, collision, driving), operation control (behavior control), etc.
일반적으로 기계 학습 알고리즘을 실생활에 적용하기 위해서는 기계 학습의 기본 방법론의 특성상 Trial and Error 방식으로 학습을 수행하게 된다. 특히, 심층 학습의 경우 수십만 번의 반복 실행을 필요로 한다. 이를 실제 물리적인 외부 환경에서 실행하기는 불가능하여 대신 실제 물리적인 외부 환경을 컴퓨터상에서 가상으로 구현하여 시뮬레이션을 통해 학습을 수행한다.Generally, in order to apply machine learning algorithms to real life, learning is performed using a trial and error method due to the nature of the basic methodology of machine learning. In particular, deep learning requires hundreds of thousands of iterations. It is impossible to execute this in an actual physical external environment, so instead, the actual physical external environment is virtually implemented on a computer and learning is performed through simulation.
도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.1 is a diagram for explaining the configuration of a system according to an embodiment.
도 1을 참조하면, 일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 사용자의 단말(100), 및 장치(200)를 포함할 수 있다.Referring to FIG. 1, a system according to an embodiment may include a user terminal 100 and a device 200 that can communicate with each other through a communication network.
먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.First, a communication network can be configured regardless of the communication mode, such as wired or wireless, and can be implemented in various forms to enable communication between servers and between servers and terminals.
사용자의 단말(100)은 보컬 데이터를 통해 보컬 평가를 제공받고자 하는 사용자가 사용하는 단말로, 휴대전화기, 데스크톱 PC, 랩탑 PC, 태블릿 PC, 스마트폰 등으로 구현될 수 있으나, 이에 제한되지는 않으며, 외부 서버와 연결될 수 있는 다양한 형태의 통신 장치로 구현될 수도 있다. 예를 들어, 도 1에 도시된 바와 같이, 사용자의 단말(100)은 스마트폰일 수 있으며, 실시예에 따라 달리 채용될 수도 있다.The user terminal 100 is a terminal used by a user who wishes to receive vocal evaluation through vocal data, and may be implemented as a mobile phone, desktop PC, laptop PC, tablet PC, smartphone, etc., but is not limited to this. , It can also be implemented as various types of communication devices that can be connected to external servers. For example, as shown in FIG. 1, the user's terminal 100 may be a smartphone, and may be employed differently depending on the embodiment.
사용자의 단말(100)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 사용자의 단말(100)은 장치(200)와 유무선으로 통신하도록 구성될 수 있다.The user's terminal 100 may be configured to perform all or part of the calculation function, storage/reference function, input/output function, and control function of a typical computer. The user's terminal 100 may be configured to communicate with the device 200 wired or wirelessly.
사용자의 단말(100)은 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 사이트에 접속되거나, 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다 사용자의 단말(100)은 웹 사이트 또는 애플리케이션을 통해 장치(200)와 연동될 수 있다.The user's terminal 100 is connected to a website operated by a person or organization that provides services using the device 200, or an application developed and distributed by a person or organization that provides services using the device 200. The user's terminal 100 can be installed and linked with the device 200 through a website or application.
도1 및 이하의 설명에서는, 설명의 편의상, 사용자의 단말(100) 하나만을 도시하고 설명하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(200)의 처리 용량이 허용하는 한, 단말들의 수는 특별한 제한이 없다.In FIG. 1 and the following description, for convenience of explanation, only the user terminal 100 is shown and described, but the number of terminals may vary depending on the embodiment. As long as the processing capacity of the device 200 allows, the number of terminals is not particularly limited.
즉, 청구항에 기재된 단수의 표현은 복수를 포함하는 것으로 이해될 수 있다.That is, the singular expressions described in the claims may be understood to include the plural.
장치(200)는 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(200)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 장치(200)는 사용자의 단말(100)과 유무선으로 통신하도록 구성될 수 있다. The device 200 may be its own server owned by a person or organization that provides services using the device 200, a cloud server, or a p2p (peer-to-peer) set of distributed nodes. It may be possible. The device 200 may be configured to perform all or part of the calculation function, storage/reference function, input/output function, and control function of a typical computer. The device 200 may be configured to communicate with the user's terminal 100 wired or wirelessly.
또한, 장치(200)는 블로그, 카페, 인스타그램, 페이스북, 트위터, 유튜브를 포함하는 SNS 및 기사를 포함하는 웹 페이지를 포함하는 웹사이트와 유무선으로 통신할 수 있으며, 장치(200)는 웹사이트에 접속하여 정보를 획득할 수 있다.Additionally, the device 200 can communicate wired or wirelessly with websites including web pages including articles and SNS including blogs, cafes, Instagram, Facebook, Twitter, and YouTube, and the device 200 You can obtain information by accessing the website.
장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득하고, 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하고, 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력하고, 하용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성하고, 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말(100)로 제공할 수 있다.The device 200 obtains the user's vocal data from the user's terminal 100, obtains song information based on the user's vocal data, and applies the user's vocal data and song information to the vocal evaluation artificial intelligence model. Output the user's evaluation result data, calculate the user's vocal level based on the user's evaluation result data, generate the user's vocalization attribute based on the user's evaluation result data, and calculate the user's vocal level and the user's vocal level. The vocalization properties of can be provided to the user's terminal 100.
본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.In the present invention, artificial intelligence (AI) refers to technology that imitates human learning ability, reasoning ability, perception ability, etc. and implements this with a computer, and includes concepts such as machine learning and symbolic logic. may include. Machine Learning (ML) is an algorithmic technology that classifies or learns the characteristics of input data on its own. Artificial intelligence technology is a machine learning algorithm that analyzes input data, learns the results of the analysis, and makes judgments or predictions based on the results of the learning. Additionally, technologies that mimic the functions of the human brain, such as cognition and judgment, using machine learning algorithms can also be understood as the category of artificial intelligence. For example, technical fields such as verbal understanding, visual understanding, reasoning/prediction, knowledge representation, and motion control may be included.
기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.Machine learning can refer to the process of training a neural network model using experience processing data. Machine learning can mean that computer software improves its own data processing capabilities. A neural network model is built by modeling the correlation between data, and the correlation can be expressed by a plurality of parameters. A neural network model extracts and analyzes features from given data to derive correlations between data. Repeating this process to optimize the parameters of the neural network model can be called machine learning. For example, a neural network model can learn the mapping (correlation) between input and output for data given as input-output pairs. Alternatively, a neural network model may learn the relationships by deriving regularities between given data even when only input data is given.
인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.An artificial intelligence learning model or neural network model may be designed to implement the human brain structure on a computer, and may include a plurality of network nodes with weights that simulate neurons of a human neural network. A plurality of network nodes may have a connection relationship with each other by simulating the synaptic activity of neurons in which neurons exchange signals through synapses. In an artificial intelligence learning model, multiple network nodes are located in layers of different depths and can exchange data according to convolutional connection relationships. The artificial intelligence learning model may be, for example, an artificial neural network model (Artificial Neural Network), a convolution neural network (CNN) model, etc. As an example, an artificial intelligence learning model may be machine-learned according to methods such as supervised learning, unsupervised learning, and reinforcement learning. Machine learning algorithms for performing machine learning include Decision Tree, Bayesian Network, Support Vector Machine, Artificial Neural Network, and Ada-boost. , Perceptron, Genetic Programming, Clustering, etc. can be used.
이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.Among them, CNN is a type of multilayer perceptrons designed to use minimal preprocessing. CNN consists of one or several convolution layers and general artificial neural network layers on top of them, and additionally utilizes weights and pooling layers. Thanks to this structure, CNN can fully utilize input data with a two-dimensional structure. Compared to other deep learning structures, CNN shows good performance in both video and audio fields. CNNs can also be trained via standard back propagation. CNNs have the advantage of being easier to train and using fewer parameters than other feedforward artificial neural network techniques.
컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.Convolutional networks are neural networks that contain sets of nodes with bound parameters. The increasing size of available training data and the availability of computational power, combined with algorithmic advances such as piecewise linear unit and dropout training, have led to significant improvements in many computer vision tasks. For extremely large data sets, such as those available for many tasks today, overfitting is not critical, and increasing the size of the network improves test accuracy. Optimal use of computing resources becomes a limiting factor. For this purpose, distributed, scalable implementations of deep neural networks can be used.
도 2는 일실시예에 따른 사용자의 보컬 데이터를 기초로, 보컬 평가를 수행하는 과정을 설명하기 위한 순서도이다.Figure 2 is a flowchart for explaining a process of performing vocal evaluation based on the user's vocal data according to an embodiment.
도 2를 참조하면, 먼저, S201 단계에서, 장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득할 수 있다.Referring to FIG. 2, first, in step S201, the device 200 may obtain the user's vocal data from the user's terminal 100.
구체적으로, 장치(200)는 사용자의 단말(100)로부터 사용자가 노래를 부른 데이터인 보컬 데이터를 수신할 수 있으며, 이때, 장치(200)는 장치(200)에 구비된 데이터베이스에 사용자와 매칭하여 사용자의 보컬 데이터를 저장할 수 있다.Specifically, the device 200 may receive vocal data, which is data in which the user sang a song, from the user's terminal 100. At this time, the device 200 matches the user to the database provided in the device 200. User vocal data can be saved.
이를 위해 사용자의 단말(100)은 사용자가 노래를 부른 영상 데이터 또는 음성 데이터를 기록하고, 기록 결과에 따라 사용자의 보컬 데이터를 생성할 수 있다. 이때, 보컬 데이터는 영상 파일 또는 음성 파일일 수 있으나, 이에 한정되는 것은 아니다.To this end, the user's terminal 100 may record video data or voice data in which the user sings a song, and generate the user's vocal data according to the recording results. At this time, the vocal data may be a video file or a voice file, but is not limited thereto.
장치(200)는 사용자의 단말(100)로부터 직접 음성, 동영상 등을 수집하거나, 사용자의 단말(100)에서 SNS 서비스 등에 업로드 및 등록한 데이터를 수집 처리하여 보컬 데이터를 획득할 수도 있다.The device 200 may collect voice, video, etc. directly from the user's terminal 100, or may obtain vocal data by collecting and processing data uploaded and registered to SNS services, etc. on the user's terminal 100.
또한, 장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득하는 과정에서 사용자의 단말(100)로부터 사용자와 관련된 정보인 사용자의 개인 정보를 추가로 획득할 수 있다. 이때, 사용자의 개인 정보는 사용자의 이름, 사용자의 닉네임을 포함하는 사용자의 식별 정보, 사용자의 성별, 나이 및 신체 특징 정보 등을 포함할 수 있으나, 이에 한정되지는 않는다. 사용자의 개인 정보는 메타버스(metaverse) 세계에서의 가상의 인물 정보도 포함될 수 있다.Additionally, the device 200 may additionally obtain the user's personal information, which is information related to the user, from the user's terminal 100 in the process of acquiring the user's vocal data from the user's terminal 100. At this time, the user's personal information may include, but is not limited to, the user's name, user identification information including the user's nickname, and the user's gender, age, and physical characteristic information. The user's personal information may also include information about virtual people in the metaverse world.
장치(200)는 사용자에게 보컬 평가를 제공하기 위한 플랫폼 서비스 또는 웹 사이트를 제공할 수 있으며, 사용자는 해당 플랫폼 서비스 또는 웹 사이트에 보컬 데이터를 업로드할 수도 있다.The device 200 may provide a platform service or website for providing vocal evaluation to the user, and the user may upload vocal data to the platform service or website.
또한, 장치(200)는 사용자의 단말(100)을 통해 인식된 음성을 기초로, 보컬 데이터로 사용 가능한 음성을 저장 및 저장된 음성을 통해 보컬 데이터를 선정할 수도 있다. 이와 관련하여 구체적인 설명은 도 11을 참조하기로 한다.Additionally, the device 200 may store voices that can be used as vocal data based on voices recognized through the user's terminal 100 and select vocal data through the stored voices. For a detailed description in this regard, refer to FIG. 11.
S202 단계에서, 장치(200)는 사용자의 보컬 데이터를 기초로, 곡 정보를 획득할 수 있다.In step S202, the device 200 may obtain song information based on the user's vocal data.
구체적으로, 장치(200)는 곡 인식 인공신경망을 구비하거나, 별개의 곡 인식 인공신경망과 유무선으로 통신할 수 있으며, 곡 인식 인공신경망은 보컬 데이터를 입력하면, 해당 보컬 데이터에 포함된 음성을 분석하여 해당 음성의 멜로디, 해당 음성의 가사를 파악하고, 해당 음성의 멜로디 및 해당 음성의 가사를 기초로 보컬 데이터의 원곡 정보 즉, 보컬 데이터의 곡 정보를 출력하는 인공신경망이다. 또한, 곡 인식 인공신경망과 관련하여 구체적으로 작성하지 않았지만, 곡 인식 인공신경망은 통상적으로 사용되는 노래 찾기 인공신경망 및 음악 검색 인공신경망과 동일한 형태로 구현될 수 있다.Specifically, the device 200 may be equipped with a song recognition artificial neural network or may communicate wired or wirelessly with a separate song recognition artificial neural network. When vocal data is input, the song recognition artificial neural network analyzes the voice included in the vocal data. It is an artificial neural network that identifies the melody of the voice and the lyrics of the voice, and outputs the original song information of the vocal data, that is, the song information of the vocal data, based on the melody of the voice and the lyrics of the voice. In addition, although not specifically written in relation to the song recognition artificial neural network, the song recognition artificial neural network can be implemented in the same form as the commonly used song search artificial neural network and music search artificial neural network.
즉, 장치(200)는 사용자의 보컬 데이터를 곡 인식 인공신경망에 적용하여, 사용자의 보컬 데이터에 대응하는 곡 정보를 획득할 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보, 곡의 음악 장르 등을 포함할 수 있다.That is, the device 200 can obtain song information corresponding to the user's vocal data by applying the user's vocal data to the song recognition artificial neural network. At this time, the song information may include the name of the song, the singer of the song, the audio file of the song, the score of the song, and the music genre of the song.
S203 단계에서, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력할 수 있다.In step S203, the device 200 may apply the user's vocal data and song information to the vocal evaluation artificial intelligence model and output the user's evaluation result data.
여기서, 보컬 평가 인공지능 모델은 장치(200)에 구비될 수 있으며, 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함할 수 있다.Here, a vocal evaluation artificial intelligence model may be provided in the device 200, and the vocal evaluation artificial intelligence model may include an item evaluation model and a vocal attribute evaluation model.
여기서, 항목 평가 모델은 항목을 평가하는 모델로, 항목에는 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도가 포함될 수 있다. 즉, 항목 평가 모델에는 항목 중 음감을 평가하는 모델인 음감 평가 모델, 항목 중 템포감을 평가하는 모델인 템포감 평가 모델, 항목 중 호흡을 평가하는 모델인 호흡 컨트롤 평가 모델, 항목 중 리듬감을 평가하는 모델인 리듬감 평가 모델, 항목 중 고음을 평가하는 모델인 고음 안정감 평가 모델, 항목 중 표현력을 평가하는 모델인 표현력 평가 모델, 항목 중 완성도를 평가하는 모델인 완성도 평가 모델이 포함될 수 있다.Here, the item evaluation model is a model that evaluates items, and the items may include pitch, tempo, breathing, rhythm, high pitch, expressiveness, and completeness. In other words, the item evaluation model includes a pitch evaluation model that evaluates the sense of pitch among the items, a tempo sense evaluation model that evaluates the sense of tempo among the items, a breathing control evaluation model that evaluates breathing among the items, and a model that evaluates the sense of rhythm among the items. It may include a rhythm evaluation model, a high-pitched stability evaluation model that is a model that evaluates high notes among items, an expressiveness evaluation model that is a model that evaluates expressiveness among items, and a completeness evaluation model that is a model that evaluates completeness among items.
또한, 발성 속성 평가 모델은 사용자의 톤을 평가하는 톤 평가 모델, 및 사용자의 속성을 평가하는 속성 평가 모델이 포함될 수 있다.Additionally, the speech attribute evaluation model may include a tone evaluation model that evaluates the user's tone, and an attribute evaluation model that evaluates the user's attributes.
보컬 평가 인공지능 모델과 관련하여 구체적인 설명은 도 3을 참조하기로 한다.Refer to FIG. 3 for a detailed explanation regarding the vocal evaluation artificial intelligence model.
S204 단계에서, 장치(200)는 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출할 수 있다.In step S204, the device 200 may calculate the user's vocal level based on the user's evaluation result data.
구체적으로, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출할 수 있다. 이와 관련하여 구체적인 설명은 도 4 내지 도 7을 참조하기로 한다.Specifically, the device 200 may calculate the user's vocal level based on the user's evaluation result data output by applying the user's vocal data and song information to the vocal evaluation artificial intelligence model. For detailed description in this regard, refer to FIGS. 4 to 7.
S205 단계에서, 장치(200)는 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성할 수 있다.In step S205, the device 200 may generate the user's vocalization attributes based on the user's evaluation result data.
구체적으로, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성할 수 있다. 이와 관련하여 구체적인 설명은 도 8 내지 도 9를 참조하기로 한다.Specifically, the device 200 may apply the user's vocal data and song information to a vocal evaluation artificial intelligence model and generate the user's vocalization properties based on the output user evaluation result data. For a detailed description in this regard, refer to FIGS. 8 and 9.
S206 단계에서, 장치(200)는 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말(100)로 제공할 수 있다.In step S206, the device 200 may provide the user's vocal level and the user's vocalization properties to the user's terminal 100.
구체적으로, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 산출된 사용자의 보컬 레벨 및 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 생성된 사용자의 발성 속성을 사용자의 단말(100)로 제공할 수 있다. 이때, 사용자의 단말(100)에 사용자의 보컬 레벨 및 사용자의 발성 속성이 제공되는 예시는 도 10을 참조하기로 한다.Specifically, the device 200 applies the user's vocal data and song information to the vocal evaluation artificial intelligence model and calculates the user's vocal level and the user's vocal data and song information based on the user's evaluation result data output. Based on the user's evaluation result data output by applying it to the vocal evaluation artificial intelligence model, the user's vocalization properties generated can be provided to the user's terminal 100. At this time, refer to FIG. 10 for an example in which the user's vocal level and the user's vocalization properties are provided to the user's terminal 100.
즉, 장치(200)는 사용자에게 사용자의 보컬 레벨 및 사용자의 발성 속성을 제공함으로써, 사용자는 제공받은 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 현재 사용자의 보컬 실력을 객관적으로 파악할 수 있다. That is, the device 200 provides the user's vocal level and the user's vocalization properties to the user, so that the user can objectively determine the current user's vocal skills based on the user's vocal level and the user's vocalization properties. .
또한, 사용자는 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 사용자에게 적합한 보컬 트레이닝을 알 수 있어, 효과적으로 보컬 실력을 향상시킬 수 있다.In addition, the user can find out vocal training suitable for the user based on the user's vocal level and the user's vocalization properties, thereby effectively improving vocal skills.
도 3은 일실시예에 따른 보컬 평가 인공지능 모델을 설명하기 위한 도면이다.Figure 3 is a diagram for explaining a vocal evaluation artificial intelligence model according to an embodiment.
구체적으로, 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함할 수 있다.Specifically, the vocal evaluation artificial intelligence model may include an item evaluation model and a vocal attribute evaluation model.
또한, 항목 평가 모델에는 항목 중 음감을 평가하는 모델인 음감 평가 모델, 항목 중 템포감을 평가하는 모델인 템포감 평가 모델, 항목 중 호흡을 평가하는 모델인 호흡 컨트롤 평가 모델, 항목 중 리듬감을 평가하는 모델인 리듬감 평가 모델, 항목 중 고음을 평가하는 모델인 고음 안정감 평가 모델, 항목 중 표현력을 평가하는 모델인 표현력 평가 모델, 항목 중 완성도를 평가하는 모델인 완성도 평가 모델이 포함될 수 있다.In addition, the item evaluation models include the pitch evaluation model, which is a model that evaluates the sense of pitch among items, the tempo sense evaluation model, which is a model that evaluates the sense of tempo among items, the breathing control evaluation model, which is a model that evaluates breathing among items, and the model that evaluates rhythm among items. It may include a rhythm evaluation model, a high-pitched stability evaluation model that is a model that evaluates high notes among items, an expressiveness evaluation model that is a model that evaluates expressiveness among items, and a completeness evaluation model that is a model that evaluates completeness among items.
음감 평가 모델은 사용자의 보컬 데이터에 포함된 음감과 곡 정보에 포함된 음감을 비교하여 사용자가 음을 정확하게 표현하였는지 여부를 평가하는 모델로, 음감 평가 모델은 곡 정보를 통해 미리 설정된 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 사용자의 보컬 데이터를 통해 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 음의 높이인 제2 높이를 파악하여, 제1 거리와 제2 거리를 비교하여, 제1 높이와 제2 높이를 비교하여 제1 거리와 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 제1 높이와 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 출력 값으로 O를 출력하고, 제1 거리와 제2 거리의 차이가 제1 기준 차이 내에 포함되지 않거나 제1 높이와 제2 높이의 차이가 제2 기준 차이 내에 포함되지 않았다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 음감 평가 모델은 인공지능 모델일 수 있으며, 음감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. The pitch evaluation model is a model that evaluates whether the user expressed the sound accurately by comparing the pitch included in the user's vocal data with the pitch included in the song information. The pitch evaluation model is a first setting section preset through song information. The first distance, which is the distance between the notes, and the first height, which is the height of the sound, are identified, and the second distance, which is the distance between the notes in the second set section corresponding to the first set section, is determined through the user's vocal data. Determine the distance and the second height, which is the height of the sound, compare the first distance and the second distance, compare the first height and the second height, and the difference between the first distance and the second distance is a preset first reference difference. If it is confirmed that the difference between the first height and the second height is within the preset second reference difference, O is output as an output value, and the difference between the first distance and the second distance is not included within the first reference difference. Alternatively, if it is confirmed that the difference between the first height and the second height is not within the second reference difference, it may be a model that outputs X as an output value. Additionally, the pitch evaluation model may be an artificial intelligence model, and the pitch evaluation model may be implemented in the form of a convolutional neural network (CNN).
구체적으로, 장치(200)는 음감 평가 모델을 통해 사용자의 음감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 음감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 음감 평가 모델은 전처리가 완료된 곡의 오디오 파일을 통해 음과 음 사이의 거리를 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 음과 음 사이의 거리를 생성하여 두 거리 간의 차이를 생성하고, 전처리가 완료된 곡의 오디오 파일을 통해 음 높이를 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 음 높이를 생성하여 두 높이 간의 차이를 생성하고, 두 거리 간의 차이 및 두 높이 간의 차이가 모두 미리 설정된 기준을 만족한다고 확인되면, 출력 값으로 O를 출력하고, 두 거리 간의 차이 및 두 높이 간의 차이 중 적어도 하나가 기준을 만족하지 못한다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the audio file of the song included in the song information and the user's vocal data to evaluate the user's pitch through a pitch evaluation model. At this time, the device 200 considers the possibility that the length of the song's audio file and the vocal data are different, and processes the song's audio file and the user's vocal data by cropping them to a certain length (5 to 10 seconds). can be preprocessed, and the device 200 can also perform preprocessing to remove noise from the audio file of the song and the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the audio file of the song and the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting the audio file of the song and the user's vocal data included in the preprocessed song information into the pitch evaluation model. At this time, the pitch evaluation model generates the distance between the notes through the pre-processed audio file of the song, creates the distance between the notes through the pre-processed user's vocal data, and creates the difference between the two distances. , the pitch is generated from the pre-processed audio file of the song, the pitch is generated from the pre-processed user's vocal data to create the difference between the two heights, and the difference between the two distances and the difference between the two heights are both calculated in advance. If it is confirmed that the set standard is satisfied, O can be output as the output value, and if it is confirmed that at least one of the difference between the two distances and the difference between the two heights does not satisfy the standard, X can be output as the output value.
템포감 평가 모델은 사용자의 보컬 데이터에 포함된 템포와 곡 정보에 포함된 템포를 비교하여 사용자가 BPM을 일정하게 유지하는 감각이 있는지 여부를 평가하는 모델로, 템포감 평가 모델은 곡 정보를 통해 기준 BPM을 파악하고, 사용자의 보컬 데이터를 통해 기준 BPM을 벗어난 구간을 파악하여, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 기준 시간보다 짧지 않다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 템포감 평가 모델은 인공지능 모델일 수 있으며, 템포감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. The tempo feeling evaluation model is a model that evaluates whether the user has the sense to keep the BPM constant by comparing the tempo included in the user's vocal data with the tempo included in the song information. The tempo feeling evaluation model evaluates the standard BPM through song information. Identify the section that deviates from the standard BPM through the user's vocal data, and if it is confirmed that the section that deviates from the standard BPM among the total sections included in the user's vocal data is shorter than the preset standard time, O is output as the output value. , If it is confirmed that the section outside the standard BPM among the total sections included in the user's vocal data is not shorter than the standard time, it may be a model that outputs X as the output value. Additionally, the tempo sense evaluation model may be an artificial intelligence model, and the tempo sense evaluation model may be implemented in the form of a convolutional neural network (CNN).
구체적으로, 장치(200)는 템포감 평가 모델을 통해 사용자의 템포감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 템포감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 템포감 평가 모델은 전처리가 완료된 곡 정보를 통해 해당 곡의 BPM인 기준 BPM을 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 기준 BPM을 벗어난 구간을 확인하여 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 짧다고 확인되면, 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 짧지 않다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the audio file of the song included in the song information and the user's vocal data to evaluate the user's sense of tempo through a tempo sense evaluation model. At this time, the device 200 considers the possibility that the length of the song's audio file and the vocal data are different, and processes the song's audio file and the user's vocal data by cropping them to a certain length (5 to 10 seconds). can be preprocessed, and the device 200 can also perform preprocessing to remove noise from the audio file of the song and the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the audio file of the song and the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting the audio file of the song and the user's vocal data included in the preprocessed song information into the tempo evaluation model. At this time, the tempo evaluation model generates the standard BPM, which is the BPM of the song, through the pre-processed song information, and checks the sections that deviate from the standard BPM through the pre-processed user's vocal data to determine the total section included in the user's vocal data. If it is confirmed that the section outside the standard BPM is short, O can be output as the output value, and if it is confirmed that the section outside the standard BPM among the total sections included in the user's vocal data is not short, X can be output as the output value.
호흡 컨트롤 평가 모델은 사용자의 보컬 데이터에 포함된 비브라토가 포함된 횟수를 확인하여 사용자가 호흡을 컨트롤 할 수 있는지 여부를 평가하는 모델로, 호흡 컨트롤 평가 모델은 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 확인하여, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 미리 설정된 제1 기준 횟수를 만족한다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 호흡 컨트롤 평가 모델은 인공지능 모델일 수 있으며, 호흡 컨트롤 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 비브라토는 음의 높낮이를 조금씩 오르내리는 연속적인 진동을 표현하는 기법으로, 음의 주파수를 미리 설정된 범위 내에서 위아래로 변화시킴으로써 실현되는 것일 수 있다. 여기서, 제1 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제1 기준 횟수는 호흡 컨트롤 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수 내에 포함될 경우, 제1 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수 내에 포함되지 않을 경우, 제1 기준 횟수를 만족하지 않는다고 확인할 수 있다.The breathing control evaluation model is a model that evaluates whether the user can control breathing by checking the number of times vibrato included in the user's vocal data. The breathing control evaluation model evaluates whether the user can control breathing by checking the number of times vibrato included in the user's vocal data. By checking the number of times, if it is confirmed that the number of times the vibrato is included in the user's vocal data satisfies the first preset standard number, O is output as an output value, and the number of times the vibrato is included in the user's vocal data is the first standard number. If it is determined that is not satisfied, it may be a model that outputs X as the output value. Additionally, the respiratory control evaluation model may be an artificial intelligence model, and the respiratory control evaluation model may be implemented in the form of a convolutional neural network (CNN). Here, vibrato is a technique that expresses continuous vibration that gradually goes up and down the pitch of the sound, and can be realized by changing the frequency of the sound up and down within a preset range. Here, the first reference number of times may be a preset number of times. In this case, the preset number of times may be one number of times or a range of times. Additionally, the first reference number may be corrected as the number of embodiments through the respiratory control evaluation model increases. That is, if the number of times the vibrato is included in the user's vocal data is within the first standard number of times, it can be confirmed that the first standard number of times is satisfied, and the number of times the user's vocal data includes the vibrato is not within the first standard number of times. If not, it can be confirmed that the first standard number of times is not satisfied.
구체적으로, 장치(200)는 호흡 컨트롤 평가 모델을 통해 사용자의 호흡을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 호흡 컨트롤 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 호흡 컨트롤 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 생성하고, 생성된 비브라토가 포함된 횟수가 제1 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 비브라토가 포함된 횟수가 제1 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's breathing through a breathing control evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting pre-processed user vocal data into a respiratory control evaluation model. At this time, the breathing control evaluation model generates the number of times vibrato is included through the preprocessed user's vocal data, and when it is confirmed that the generated number of times including vibrato satisfies the first standard number, it outputs O as the output value. , if it is confirmed that the number of times the vibrato is included does not satisfy the first standard number of times, X can be output as the output value.
리듬감 평가 모델은 곡 정보를 기초로 리듬을 파악하고, 사용자의 보컬 데이터에 리등에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 확인하여 사용자가 리듬감이 있는지 여부를 평가하는 모델로, 리듬감 평가 모델은 곡 정보를 통해 기준 리듬을 파악하고, 사용자의 보컬 데이터를 통해 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 확인하여, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 미리 설정된 제2 기준 횟수 이상 포함되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수보다 적게 포함되었다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 리듬감 평가 모델은 인공지능 모델일 수 있으며, 리듬감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 벤딩은 음의 높낮이를 조절하는 것으로, 기준 리듬에 대응하는 벤딩을 확인하는 방법은 벤딩 시작음과 도달하려는 음의 연결 시간 동안 내게 되는 연결 과정 중의 음성을 확인하여 기준 리듬에 적합한 벤딩인지 여부를 확인할 수 있고, 바이브레이션은 음의 떨림을 나타내는 것으로 비브라토와 유사하지만 음의 높낮이 변화가 균등한 빈도 및 규칙적인 진동을 표현한 것으로, 기준 리듬에 대응하는 바이브레이션을 확인하는 방법은 기준 리듬에 대응하여 규칙적인 음의 높낮이 변화가 있었는지 여부를 확인할 수 있다. 여기서, 제2 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제2 기준 횟수는 리듬감 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수 내에 포함될 경우, 제2 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수 내에 포함되지 않을 경우, 제2 기준 횟수를 만족하지 않는다고 확인할 수 있다.The rhythm evaluation model is a model that evaluates whether the user has a sense of rhythm by identifying the rhythm based on song information and checking the number of times the user's vocal data includes bending and vibration corresponding to the rhythm. Identify the reference rhythm through the information, check the number of times bending and vibration corresponding to the reference rhythm are included through the user's vocal data, and determine in advance the number of times the user's vocal data includes bending and vibration corresponding to the reference rhythm. If it is confirmed that more than the set second standard number is included, O is output as the output value, and if it is confirmed that the user's vocal data contains bending and vibration corresponding to the standard rhythm less than the second standard number, the output value is X. It may be a model that outputs. Additionally, the rhythm evaluation model may be an artificial intelligence model, and the rhythm evaluation model may be implemented in the form of a convolutional neural network (CNN). Here, bending is to adjust the pitch of the sound, and the way to check the bending corresponding to the standard rhythm is to check whether the bending is suitable for the standard rhythm by checking the voice during the connection process made during the connection time between the bending start sound and the sound to be reached. You can check, and vibration represents the tremor of the sound, similar to vibrato, but expresses regular vibration and an even frequency of change in pitch of the sound. The method of checking the vibration corresponding to the standard rhythm is to check the vibration corresponding to the standard rhythm. You can check whether there has been a change in pitch of the sound. Here, the second reference number of times may be a preset number of times. In this case, the preset number of times may be one number of times or a range of times. Additionally, the second reference number may be corrected as the number of examples through the rhythm evaluation model increases. That is, if the number of bending and vibrations corresponding to the standard rhythm is included in the user's vocal data within the second standard number, it can be confirmed that the second standard number is satisfied, and the bending and vibration corresponding to the standard rhythm are included in the user's vocal data. And when the number of times the vibration is included is not included in the second standard number of times, it can be confirmed that the second standard number of times is not satisfied.
구체적으로, 장치(200)는 리듬감 평가 모델을 통해 사용자의 리듬감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 리듬감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 리듬감 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 생성하고, 생성된 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the audio file of the song included in the song information and the user's vocal data to evaluate the user's sense of rhythm through a rhythm evaluation model. At this time, the device 200 considers the possibility that the length of the song's audio file and the vocal data are different, and processes the song's audio file and the user's vocal data by cropping them to a certain length (5 to 10 seconds). can be preprocessed, and the device 200 can also perform preprocessing to remove noise from the audio file of the song and the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the audio file of the song and the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting pre-processed user vocal data into a rhythm evaluation model. At this time, the rhythm evaluation model generates the number of times that bending and vibrations corresponding to the reference rhythm are included through the preprocessed user's vocal data, and the number of times that bending and vibrations corresponding to the generated reference rhythm are included is the second reference number. If it is confirmed that it satisfies, O can be output as an output value, and if it is confirmed that the number of bending and vibrations included corresponding to the standard rhythm does not satisfy the second standard number, X can be output as an output value.
고음 안정감 평가 모델은 사용자의 보컬 데이터에 포함된 사용자의 음역대를 확인하여 사용자가 사용자의 음역대 안에서 고음이 안정적인지 여부를 평가하는 모델로, 고음 안정감 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 음역대를 확인하고, 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 사용자의 보컬 데이터를 통해 기준 고음 높이에서 음의 변화를 확인하여, 기준 고음 높이에서 음의 변화가 미리 설정된 기준 변화보다 작다고 확인되면 출력 값으로 O를 출력하고, 기준 고음 높이에서 음의 변화가 기준 변화가 작지 않다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 고음 안정감 평가 모델은 인공지능 모델일 수 있으며, 고음 안정감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. The treble stability evaluation model is a model that evaluates whether the user's high notes are stable within the user's vocal range by checking the user's vocal range included in the user's vocal data. The treble stability evaluation model evaluates the user's vocal range through the user's vocal data. Confirm, generate a standard treble height based on the user's vocal range, check the change in sound from the standard treble height through the user's vocal data, and output if it is confirmed that the change in sound at the standard treble height is less than the preset standard change. It may be a model that outputs O as a value, and outputs X as an output value if it is confirmed that the change in sound from the standard treble height is not small. Additionally, the treble stability evaluation model may be an artificial intelligence model, and the treble stability evaluation model may be implemented in the form of a convolutional neural network (CNN).
구체적으로, 장치(200)는 고음 안정감 평가 모델을 통해 사용자의 고음을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 고음 안정감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 고음 안정감 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 음역대를 확인하고, 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 기준 고음 높이에서 음의 변화를 확인하여, 기준 고음 높이에서 음의 변화가 기준 변화보다 작다고 확인되면, 출력 값으로 O를 출력하고, 기준 고음 높이에서 음의 변화가 기준 변화보다 작지 않다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's high pitch through a high pitch stability evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting the preprocessed user's vocal data into the treble stability evaluation model. At this time, the treble stability evaluation model checks the user's vocal range through the preprocessed user's vocal data, generates a reference treble height based on the user's vocal range, checks the change in sound at the standard treble height, and determines the reference treble height. If it is confirmed that the sound change is smaller than the standard change, O can be output as the output value, and if it is confirmed that the sound change in the standard treble height is not smaller than the standard change, X can be output as the output value.
표현력 평가 모델은 사용자의 보컬 데이터에 포함된 딕션의 강세 변화, 소리의 질감 변화, 볼륨의 크기 변화를 확인하여 사용자가 표현력을 할 수 있는지 여부를 평가하는 모델로, 표현력 평가 모델은 사용자의 보컬 데이터를 통해 딕션의 강세가 변화된 횟수를 확인하고, 사용자의 보컬 데이터를 통해 소리의 질감이 변화된 횟수를 확인하고, 사용자의 보컬 데이터를 통해 볼륨의 크기가 변화된 횟수를 확인하여, 딕션의 강세 변화 횟수, 소리의 질감 변화 횟수 및 볼륨의 크기 변화 횟수가 미리 설정된 제3 기준 횟수를 만족한다고 확인되면 출력 값으로 O를 출력하고, 딕션의 강세 변화 횟수, 소리의 질감 변화 횟수 및 볼륨의 크기 변화 횟수가 제3 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 표현력 평가 모델은 인공지능 모델일 수 있으며, 표현력 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 제3 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제3 기준 횟수는 표현력 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 포함된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수 내에 포함될 경우, 제3 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 포함된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수 내에 포함되지 않을 경우, 제3 기준 횟수를 만족하지 않는다고 확인할 수 있다.The expressiveness evaluation model is a model that evaluates whether the user can express himself by checking the change in diction stress, sound texture, and volume size included in the user's vocal data. Check the number of times the accent of the diction has changed, check the number of times the texture of the sound has changed through the user's vocal data, and check the number of times the volume has changed through the user's vocal data to determine the number of times the accent of the diction has changed, If it is confirmed that the number of sound texture changes and the number of volume size changes satisfy the preset third standard number, O is output as the output value, and the number of diction stress changes, the number of sound texture changes, and the number of volume size changes are set. 3 If it is confirmed that the standard number of times is not met, the model may output X as the output value. Additionally, the expression evaluation model may be an artificial intelligence model, and the expression evaluation model may be implemented in the form of a convolutional neural network (CNN). Here, the third reference number of times may be a preset number of times. In this case, the preset number of times may be one number of times or a range of times. Additionally, the third reference number may be corrected as the number of embodiments through the expressiveness evaluation model increases. In other words, if the number of times the accent of the diction included in the user's vocal data has changed, the number of times the texture of the sound has changed, and the number of times the volume has changed are within the third standard number of times, it can be confirmed that the third standard number of times is satisfied, and the user If the number of times the accent of diction, the number of times the texture of the sound has changed, and the number of times the volume has changed included in the vocal data are not included in the third standard number of times, it can be confirmed that the third standard number of times is not satisfied.
구체적으로, 장치(200)는 표현력 평가 모델을 통해 사용자의 표현력을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 표현력 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 표현력 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 딕션의 강세가 변화된 횟수를 확인하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 소리의 질감이 변화된 횟수를 확인하고 및 전처리가 완료된 사용자의 보컬 데이터를 통해 볼륨의 크기가 변화된 횟수를 확인하여, 확인된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's expressiveness through an expressiveness evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting pre-processed user vocal data into an expressiveness evaluation model. At this time, the expressiveness evaluation model checks the number of times the diction stress has changed through the pre-processed user's vocal data, checks the number of times the sound texture has changed through the pre-processed user's vocal data, and checks the number of times the sound texture has changed through the pre-processed user's vocal data. Check the number of times the volume size has changed through the data, and if it is confirmed that the number of times the stress of the confirmed diction has changed, the number of times the sound texture has changed, and the number of times the volume size has changed satisfies the third standard number of times, the output value is O. is output, and if it is confirmed that the number of times the accent of the diction has changed, the number of times the sound texture has changed, and the number of times the volume has changed do not meet the third standard number of times, X can be output as the output value.
완성도 평가 모델은 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델에서 모두 출력 값으로 O가 출력된 경우, 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 평가하는 모델로, 완성도 평가 모델은 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델 중 적어도 하나의 평가 모델에서 출력 값으로 X를 출력한 경우 완성도 평가 모델은 사용자의 보컬 데이터를 분석하지 않고 출력 값으로 X를 출력할 수 있다. 즉, 완성 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델과 유무선으로 통신할 수 있다. 완성도 평가 모델은 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 확인하고, 사용자의 보컬 데이터에 임팩트가 있는 부분이 있다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 임팩트가 있는 부분이 없다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 완성도 평가 모델은 인공지능 모델일 수 있으며, 완성도 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. The completeness evaluation model is a part that has impact through the user's vocal data when O is output as an output value in all of the pitch evaluation model, tempo evaluation model, breathing control evaluation model, rhythm evaluation model, treble stability evaluation model, and expressiveness evaluation model. It is a model that evaluates whether there is a completeness evaluation model, and the completeness evaluation model is an output value of When output, the completeness evaluation model may output X as the output value without analyzing the user's vocal data. In other words, it is possible to communicate wired or wirelessly with the completion evaluation model, tempo evaluation model, breathing control evaluation model, rhythm evaluation model, treble stability evaluation model, and expressiveness evaluation model. The completeness evaluation model checks whether there is an impactful part through the user's vocal data. If it is confirmed that there is an impactful part in the user's vocal data, it outputs O as an output value, and determines whether there is an impactful part in the user's vocal data. If it is confirmed that there is no part, it may be a model that outputs X as the output value. Additionally, the completeness evaluation model may be an artificial intelligence model, and the completeness evaluation model may be implemented in the form of a convolutional neural network (CNN).
구체적으로, 장치(200)는 완성도 평가 모델을 통해 사용자의 완성도를 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 완성도 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 완성도 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있다고 확인되면, 출력 값으로 O를 출력하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 없다고 확인되면 출력 값으로 X를 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's completeness through a completeness evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting pre-processed user vocal data into a completeness evaluation model. At this time, the completeness evaluation model outputs O as an output value if it is confirmed that there is an impactful part through the pre-processed user's vocal data, and if it is confirmed that there is no impactful part through the pre-processed user's vocal data, it is output. You can output X as the value.
또한, 발성 속성 평가 모델은 사용자의 톤을 평가하는 톤 평가 모델, 및 사용자의 속성을 평가하는 속성 평가 모델이 포함될 수 있다.Additionally, the speech attribute evaluation model may include a tone evaluation model that evaluates the user's tone, and an attribute evaluation model that evaluates the user's attributes.
톤 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 평균 음성 주파수를 확인하고, 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 출력 값으로 H를 출력하고, 사용자의 평균 음성 주파수가 기준 주파수보다 높지 않다고 확인되면 출력 값으로 L을 출력하는 모델일 수 있다. 또한, 톤 평가 모델은 인공지능 모델일 수 있으며, 톤 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 기준 주파수는 미리 설정된 주파수 값으로 실시 예에 따라 달라질 수 있고, 기준 주파수는 톤 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다The tone evaluation model checks the user's average voice frequency through the user's vocal data, and outputs H as an output value if it is confirmed that the user's average voice frequency is higher than the preset reference frequency. If it is confirmed that it is not high, it may be a model that outputs L as the output value. Additionally, the tone evaluation model may be an artificial intelligence model, and the tone evaluation model may be implemented in the form of a convolutional neural network (CNN). Here, the reference frequency is a preset frequency value and may vary depending on the embodiment, and the reference frequency may be corrected as the number of embodiments through the tone evaluation model increases.
구체적으로, 장치(200)는 톤 평가 모델을 통해 사용자의 톤을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 톤 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 톤 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 평균 음성 주파수를 확인하고, 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 출력 값으로 H를 출력하고, 사용자의 평균 음성 주파수가 기준 주파수보다 높지 않다고 확인되면 출력 값으로 L을 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's tone through a tone evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting the pre-processed user's vocal data into the tone evaluation model. At this time, the tone evaluation model checks the user's average voice frequency through the preprocessed user's vocal data, and if it is confirmed that the user's average voice frequency is higher than the preset reference frequency, it outputs H as an output value, and the user's average voice frequency is confirmed to be higher than the preset reference frequency. If it is confirmed that the frequency is not higher than the reference frequency, L can be output as the output value.
속성 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 평균 음성 데시벨을 확인하고, 사용자의 보컬 데이터를 통해 사용자의 성대접지 여부를 확인하여 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 M을 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 F를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 S를 출력하는 모델일 수 있다. 또한, 속성 평가 모델은 인공지능 모델일 수 있으며, 속성 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 기준 데시벨은 미리 설정된 데시벨 값으로 실시 예에 따라 달라질 수 있고, 기준 데시벨은 속성 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다The attribute evaluation model checks the user's average voice decibel through the user's vocal data, and checks whether the user's vocal cords are grounded through the user's vocal data, so that the user's average voice decibel is greater than the preset reference decibel and the user's vocal cords are grounded. If it is confirmed that the user's average voice decibel is greater than the standard decibel and the user's vocal cords are not grounded, output F as the output value, and if the user's average voice decibel is greater than the standard decibel and the user's vocal cords are not grounded, output F as the output value. If it is confirmed that the user's vocal cords are grounded, O is output as an output value, and if it is confirmed that the user's average voice decibel is not greater than the reference decibel and the user's vocal cords are not grounded, it may be a model that outputs S as an output value. Additionally, the attribute evaluation model may be an artificial intelligence model, and the attribute evaluation model may be implemented in the form of a convolutional neural network (CNN). Here, the reference decibel is a preset decibel value and may vary depending on the embodiment, and the reference decibel may be corrected as the number of embodiments through the attribute evaluation model increases.
구체적으로, 장치(200)는 속성 평가 모델을 통해 사용자의 속성을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 속성 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 속성 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 평균 음성 데시벨을 확인하고, 사용자의 보컬 데이터를 통해 사용자의 성대접지 여부를 확인하여, 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 M을 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 F를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 S를 출력할 수 있다.Specifically, the device 200 may preprocess the user's vocal data to evaluate the user's attributes through an attribute evaluation model. At this time, the device 200 may perform preprocessing to remove noise from the user's vocal data. Furthermore, the device 200 may efficiently extract information from voice through a spectrum and preprocess the user's vocal data. At this time, the process for performing preprocessing has not been specifically written, but preprocessing can be performed by a commonly used method. Additionally, the device 200 may obtain an output value by inputting pre-processed user vocal data into an attribute evaluation model. At this time, the attribute evaluation model checks the user's average voice decibel through the preprocessed user's vocal data, and checks whether the user's vocal cords are grounded through the user's vocal data, so that the user's average voice decibel is higher than the preset reference decibel. If it is confirmed that the user's vocal cords are grounded, M is output as the output value. If the user's average voice decibel is greater than the reference decibel and it is confirmed that the user's vocal cords are not grounded, F is output as the output value. If it is confirmed that the user's vocal cords are not grounded and not greater than the standard decibel, O is output as the output value. If it is confirmed that the user's average voice decibel is not greater than the standard decibel and the user's vocal cords are not grounded, S can be output as the output value. .
한편, 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델, 완성도 평가 모델, 톤 평가 모델, 속성 평가 모델은 서로 유무선으로 통신할 수 있다.Meanwhile, the pitch evaluation model, tempo evaluation model, breathing control evaluation model, rhythm evaluation model, treble stability evaluation model, expressiveness evaluation model, completeness evaluation model, tone evaluation model, and attribute evaluation model can communicate with each other wired or wirelessly.
한편, 장치(200)는 보컬 평가가 완료된 사용자의 보컬 데이터를 인공지능 학습 기반 평가 모델 데이터베이스에 저장하여, 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델, 완성도 평가 모델, 톤 평가 모델, 속성 평가 모델를 학습시키기 위한 데이터인 학습 데이터로 이용되도록 할 수 있다. Meanwhile, the device 200 stores the vocal data of the user for whom the vocal evaluation has been completed in an artificial intelligence learning-based evaluation model database, and includes a pitch evaluation model, a tempo evaluation model, a breathing control evaluation model, a rhythm evaluation model, a treble stability evaluation model, and expressiveness. It can be used as learning data, which is data for training an evaluation model, completeness evaluation model, tone evaluation model, and attribute evaluation model.
장치(200)는 학습 데이터를 전처리할 수 있고, 또한, 장치(200)는 전처리된 학습 데이터를 이용하여, 반주가 있는 데이터와, 반주가 없는 데이터, 노이즈가 있는 데이터와 같이, 다양한 데이터로 확장시키는 증식(AUGMENTATION) 처리 등이 예시될 수 있다. 증식(AUGMENTATION) 처리에는, 딥러닝 기법을 사용할 수 있고, 룸 임펄스 반응(RoomImpulse Response)과 같은 전통적인 방법을 사용할 수 있으며, 더 나아가 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출할 수도 있다.The device 200 can preprocess learning data, and the device 200 can use the preprocessed learning data to expand to various data, such as data with accompaniment, data without accompaniment, and data with noise. AUGMENTATION processing, etc. may be exemplified. For AUGMENTATION processing, deep learning techniques can be used, traditional methods such as RoomImpulse Response can be used, and further information can be efficiently extracted from speech through a spectrum.
또한, 인공지능 학습 기반 평가 모델 데이터베이스는, 스펙트럼(Spectrogram)으로 변형된 보컬 데이터를, 통상적으로 이미지에 사용되는 합성곱 신경망(Convolutional neural network, CNN)에 적용하여 학습 데이터베이스를 구축할 수 있다. 이를 위해, 인공지능 학습 기반 평가 모델 데이터베이스는, 보컬 데이터에 특화되도록 사전 학습된 가중치(pre-trained weight)를 사용하여 적은 데이터에서도 최고의 효율을 얻을 수 있다.In addition, the artificial intelligence learning-based evaluation model database can build a learning database by applying vocal data transformed into a spectrum to a convolutional neural network (CNN) commonly used in images. To this end, the artificial intelligence learning-based evaluation model database can achieve the highest efficiency even with small data by using pre-trained weights specialized for vocal data.
나아가, 인공지능 학습 기반 평가 모델 데이터베이스는, 보컬 평가를 효과적으로 처리하기 위한 분류 모델로서, softmax와 Cross Entropy Loss를 사용할 수 있으며, 직관 레벨 및 항목 레벨을 결정하는 학습을 위해, Mean Squared Loss를 사용한 역전파(back propagation) 알고리즘을 이용할 수 있다Furthermore, the artificial intelligence learning-based evaluation model database can use softmax and Cross Entropy Loss as classification models to effectively process vocal evaluation, and Mean Squared Loss can be used for learning to determine intuition level and item level. A back propagation algorithm can be used.
본 발명의 실시예에 따른 인공지능 학습 기반 평가 모델 데이터베이스는 데이터 흐름 파이프라인을 구축하여 프라이버시를 보존하고 계속적 학습(continual learning)을 통해 모델의 성능을 꾸준히 업데이트 할 수 있으며, 범용적으로 다양한 서비스에 적용할 수 있는 API가 구성될 수 있다. 이에 따라, 휴대폰 어플리케이션 서비스, 메타버스 서비스 등 다양한 서비스를 통해 인공지능 학습 기반 평가 모델 데이터베이스를 이용한 평가 프로세스가 제공될 수 있게 된다.The artificial intelligence learning-based evaluation model database according to an embodiment of the present invention preserves privacy by building a data flow pipeline and can continuously update the performance of the model through continuous learning, and can be used universally for various services. An applicable API may be configured. Accordingly, an evaluation process using an artificial intelligence learning-based evaluation model database can be provided through various services such as mobile phone application services and metaverse services.
도 4는 일실시예에 따른 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.Figure 4 is a flowchart for explaining a process of calculating a user's vocal level based on the user's evaluation result data according to an embodiment.
도 4를 참조하면, 먼저, S401 단계에서, 장치(200)는 모든 항목 평가 모델에 의해 출력된 출력 값을 기초로, 사용자의 종합 보컬 레벨을 산출할 수 있다.Referring to FIG. 4, first, in step S401, the device 200 may calculate the user's comprehensive vocal level based on the output values output by the all item evaluation model.
구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 기초로, 사용자의 종합 보컬 레벨을 산출할 수 있다. 사용자의 종합 보컬 레벨을 산출하는 과정과 관련하여 구체적인 설명은 도 5를 참조하기로 한다.Specifically, the device 200 is an output value output through a pitch evaluation model, an output value output through a tempo evaluation model, an output value output through a breathing control evaluation model, an output value output through a rhythm evaluation model, and a high pitch. The user's comprehensive vocal level can be calculated based on the output value output through the stability evaluation model, the output value output through the expressiveness evaluation model, and the output value output through the completeness evaluation model. Refer to FIG. 5 for a detailed description regarding the process of calculating the user's comprehensive vocal level.
S402 단계에서, 장치(200)는 항목 평가 모델 중 보컬 레벨을 산출하고자 하는 항목에 대응하는 항목 평가 모델에 의해 출력된 출력 값을 기초로, 항목 별 보컬 레벨을 산출할 수 있다.In step S402, the device 200 may calculate the vocal level for each item based on the output value output by the item evaluation model corresponding to the item for which the vocal level is to be calculated.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨 뿐만 아니라 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 항목 중 각 항목에 대응하는 레벨을 산출할 수도 있다. 항목 별 보컬 레벨을 산출하는 과정과 관련하여 구체적인 설명은 도 6을 참조하기로 한다.Specifically, the device 200 may calculate the level corresponding to each item among items including pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, as well as the user's overall vocal level. Refer to FIG. 6 for a detailed explanation regarding the process of calculating the vocal level for each item.
즉, 장치(200)는 사용자의 종합 보컬 레벨 및 항목 별 보컬 레벨을 산출하여 사용자에게 제공할 수 있다. That is, the device 200 can calculate the user's overall vocal level and the vocal level for each item and provide them to the user.
도 5는 일실시예에 따른 사용자의 종합 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.Figure 5 is a flowchart for explaining the process of calculating the user's comprehensive vocal level according to one embodiment.
도 5를 참조하면, 먼저, S501 단계에서, 장치(200)는 항목 평가 모델을 통해 출력된 O의 총 개수를 확인할 수 있다.Referring to FIG. 5, first, in step S501, the device 200 can check the total number of O output through the item evaluation model.
구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 기초로, 항목 평가 모델을 통해 출력된 출력 값 중 O의 총 개수를 확인할 수 있다.Specifically, the device 200 is an output value output through a pitch evaluation model, an output value output through a tempo evaluation model, an output value output through a breathing control evaluation model, an output value output through a rhythm evaluation model, and a high pitch. Based on the output value output through the stability evaluation model, the output value output through the expressiveness evaluation model, and the output value output through the completeness evaluation model, the total number of O among the output values output through the item evaluation model can be checked. there is.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O 이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 이고, 표현력 평가 모델을 통해 출력된 출력 값이 X 이고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 경우, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인하고, 템포감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 표현력 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 4로 확인할 수 있다.For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is , Confirm that the output value output through the breathing control evaluation model is O, confirm that the output value output through the rhythm evaluation model is O, and confirm that the output value output through the treble stability evaluation model is X. , by confirming that the output value output through the expressiveness evaluation model is X, and by confirming that the output value output through the completeness evaluation model is
S502 단계에서, 장치(200)는 O의 총 개수에 +1을 적용하여 사용자의 종합 보컬 레벨을 생성할 수 있다.In step S502, the device 200 may generate the user's overall vocal level by applying +1 to the total number of O's.
구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 확인할 수 있고, 확인된 항목 평가 모델을 통해 출력된 O의 총 개수에 +1을 적용하여 사용자의 종합 보컬 레벨을 산출할 수 있다.Specifically, the device 200 is an output value output through a pitch evaluation model, an output value output through a tempo evaluation model, an output value output through a breathing control evaluation model, an output value output through a rhythm evaluation model, and a high pitch. By checking the output value output through the stability evaluation model, the output value output through the expressiveness evaluation model, and the output value output through the completeness evaluation model, you can check the total number of O output through the item evaluation model, and confirm The user's overall vocal level can be calculated by applying +1 to the total number of O's output through the item evaluation model.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O 이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 이고, 표현력 평가 모델을 통해 출력된 출력 값이 X 이고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 경우, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인하고, 템포감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 표현력 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 4로 확인할 수 있고, 항목 평가 모델을 통해 출력된 O의 총 개수인 4에 +1을 적용하여 사용자의 종합 보컬 레벨을 5로 생성할 수 있다.For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is , Confirm that the output value output through the breathing control evaluation model is O, confirm that the output value output through the rhythm evaluation model is O, and confirm that the output value output through the treble stability evaluation model is X. , it is confirmed that the output value output through the expressiveness evaluation model is X, and the output value output through the completeness evaluation model is confirmed to be By applying +1 to 4, the total number of O output through the item evaluation model, the user's overall vocal level can be created as 5.
도 6은 일실시예에 따른 항목 별 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.Figure 6 is a flowchart for explaining the process of calculating vocal levels for each item according to an embodiment.
도 6을 참조하면, 먼저, S601 단계에서, 장치(200)는 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인지 여부를 확인할 수 있다.Referring to FIG. 6, first, in step S601, the device 200 may check whether the output value of the item evaluation model corresponding to the confirmation item is O.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 O인지, X인지 여부를 확인할 수 있다. 이때, 장치(200)는 모든 항목에 대응하는 보컬 레벨을 각각 산출할 수 있다.Specifically, when the user's comprehensive vocal level is generated, the device 200 selects the confirmation item for which the vocal level is to be calculated among pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, and includes it in the item evaluation model. You can check whether it is O or X by checking the output value of the item evaluation model corresponding to the confirmed item among the evaluation models. At this time, the device 200 can calculate vocal levels corresponding to all items.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 템포감이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 템포감에 대응하는 템포감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인할 수 있다. For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is It can be confirmed that the output value output through the tempo feeling evaluation model corresponding to the tempo feeling is O.
S601 단계에서 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, S602 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여할 수 있다.If the output value of the item evaluation model corresponding to the confirmation item is confirmed to be O in step S601, in step S602, the device 200 assigns the vocal level of the confirmation item as a vocal level with the same level value as the user's comprehensive vocal level. can do.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여할 수 있다.Specifically, when the user's comprehensive vocal level is generated, the device 200 selects the confirmation item for which the vocal level is to be calculated among pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, and includes it in the item evaluation model. Among the confirmed evaluation models, the output value of the item evaluation model corresponding to the confirmation item is checked, and if the output value of the item evaluation model corresponding to the confirmation item is confirmed to be O, the vocal level of the confirmation item is set to the same level as the user's comprehensive vocal level. The value can be given as a vocal level.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 템포감이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 템포감에 대응하는 템포감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인할 수 있고, 템포감의 보컬 레벨을 사용자의 종합 보컬 레벨인 5와 동일한 레벨 값의 보컬 레벨인 5로 부여할 수 있다. For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is Through the tempo feeling evaluation model corresponding to the tempo feeling item, it can be confirmed that the output value is O, and the vocal level of the tempo feeling can be assigned a vocal level of 5, which is the same level value as the user's comprehensive vocal level of 5. .
S601 단계에서 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, S603 단계에서, 장치(200)는 확인 항목이 완성도인지 여부를 판단할 수 있다.If it is confirmed that the output value of the item evaluation model corresponding to the confirmation item is X in step S601, the device 200 may determine whether the confirmation item is complete in step S603.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단할 수 있다.Specifically, when the user's comprehensive vocal level is generated, the device 200 selects the confirmation item for which the vocal level is to be calculated among pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, and includes it in the item evaluation model. Among the evaluation models, if the output value of the item evaluation model corresponding to the confirmation item is checked and the output value of the item evaluation model corresponding to the confirmation item is confirmed to be X, it can be determined whether the confirmation item is complete.
S603 단계에서 확인 항목이 완성도라고 확인되면, S604 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. 이때, 레벨의 최저 값은 무조건 1로 생성할 수 있다. If the confirmation item is confirmed to be complete in step S603, the device 200 may assign the vocal level of the confirmation item to a vocal level of a level value generated by applying -3 to the user's overall vocal level in step S604. At this time, the lowest value of the level can be unconditionally created as 1.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단하고, 확인 항목이 완성도라고 판단되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. Specifically, when the user's comprehensive vocal level is generated, the device 200 selects the confirmation item for which the vocal level is to be calculated among pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, and includes it in the item evaluation model. Among the evaluated evaluation models, the output value of the item evaluation model corresponding to the confirmation item is checked, and if the output value of the item evaluation model corresponding to the confirmation item is confirmed to be If it is determined that this is the case, the vocal level of the confirmation item can be assigned the vocal level of the level value generated by applying -3 to the user's overall vocal level.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 완성도가 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 완성도에 대응하는 완성도 평가 모델을 통해 출력된 출력 값이 X인 것을 확인할 수 있고, 확인 항목이 완성도인 것을 확인하여, 완성도의 보컬 레벨을 사용자의 종합 보컬 레벨인 5에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨인 2로 부여할 수 있다. For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is Through the completeness evaluation model corresponding to the completeness level, which is an item to be checked, it can be confirmed that the output value is Thus, the vocal level of the generated level value can be assigned as 2.
한편, 확인 항목의 보컬 레벨의 최저 값은 무조건 1로 생성할 수 있다. 예를 들어, 사용자의 종합 보컬 레벨이 2이고, 확인 항목이 완성도이고, 완성도 평가 모델을 통해 출력된 출력 값이 X인 경우, 장치(200)는 완성도의 보컬 레벨을 사용자의 종합 보컬 레벨인 2에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨인 -1로 부여하여야 하지만, 보컬 레벨의 최저 값은 무조건 1이기 때문에 이 경우, 장치(200)는 완성도의 보컬 레벨을 1로 생성할 수 있다.Meanwhile, the lowest value of the vocal level of the confirmation item can be unconditionally created as 1. For example, if the user's overall vocal level is 2, the check item is completeness, and the output value output through the completeness evaluation model is However, since the lowest value of the vocal level is unconditionally 1, the device 200 can generate a complete vocal level of 1. .
S603 단계에서 확인 항목이 완성도가 아니라고 확인되면, S605 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. 이때, 레벨의 최저 값은 무조건 1로 생성할 수 있다. If it is determined in step S603 that the confirmation item is not complete, in step S605, the device 200 may assign the vocal level of the confirmation item as a vocal level of a level value generated by applying -2 to the user's overall vocal level. . At this time, the lowest value of the level can be unconditionally created as 1.
구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단하고, 확인 항목이 완성도가 아니라고 판단되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. Specifically, when the user's comprehensive vocal level is generated, the device 200 selects the confirmation item for which the vocal level is to be calculated among pitch, tempo, breathing, rhythm, treble, expressiveness, and completeness, and includes it in the item evaluation model. Among the evaluated evaluation models, the output value of the item evaluation model corresponding to the confirmation item is checked, and if the output value of the item evaluation model corresponding to the confirmation item is confirmed to be If it is determined that it is not, the vocal level of the confirmation item can be given as the vocal level of the level value generated by applying -2 to the user's overall vocal level.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 고음이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 고음에 대응하는 고음 안정감 평가 모델을 통해 출력된 출력 값이 X인 것을 확인할 수 있고, 확인 항목이 완성도가 아닌 고음인 것을 확인하여, 고음의 보컬 레벨을 사용자의 종합 보컬 레벨인 5에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨인 3으로 부여할 수 있다. For example, as a result of applying the first user's vocal data to the vocal evaluation artificial intelligence model, the output value output through the pitch evaluation model is O, the output value output through the tempo evaluation model is O, and the breathing control evaluation model The output value output through is O, the output value output through the rhythm evaluation model is O, the output value output through the treble stability evaluation model is X, and the output value output through the expressiveness evaluation model is X, If the output value output through the completeness evaluation model is It can be confirmed that the output value output is By applying -2, the vocal level of the generated level value can be given as 3.
한편, 확인 항목의 보컬 레벨의 최저 값은 무조건 1로 생성할 수 있다. 예를 들어, 사용자의 종합 보컬 레벨이 2이고, 확인 항목이 표현력이고, 표현력 평가 모델을 통해 출력된 출력 값이 X인 경우, 장치(200)는 표현력의 보컬 레벨을 사용자의 종합 보컬 레벨인 2에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨인 0으로 부여하여야 하지만, 보컬 레벨의 최저 값은 무조건 1이기 때문에 이 경우, 장치(200)는 표현력의 보컬 레벨을 1로 생성할 수 있다.Meanwhile, the lowest value of the vocal level of the confirmation item can be unconditionally created as 1. For example, if the user's overall vocal level is 2, the check item is expressiveness, and the output value output through the expressiveness evaluation model is However, since the lowest value of the vocal level is unconditionally 1, the device 200 can generate the expressive vocal level as 1.
한편, 장치(200)는 보컬 레벨을 보컬 등급으로 치환하여 사용자에게 제공할 수도 있는데, 이때, 가장 높은 보컬 레벨인 8의 경우, SS 등급으로 치환될 수 있고, 2번째로 높은 보컬 레벨인 7의 경우 S 등급으로, 3번째로 높은 보컬 레벨인 6의 경우 A 등급으로, 4번째로 높은 보컬 레벨인 5의 경우 B 등급으로, 5번째로 높은 보컬 레벨인 4의 경우 C 등급으로, 6번째로 높은 보컬 레벨인 3의 경우 D 등급으로, 7번째로 높은 보컬 레벨인 2의 경우 E 등급으로, 가장 낮은 보컬 레벨인 1의 경우 F 등급으로 치환될 수 있다.Meanwhile, the device 200 may replace the vocal level with a vocal grade and provide it to the user. In this case, the highest vocal level of 8 may be replaced with an SS grade, and the second highest vocal level of 7 may be replaced with a SS grade. Grade S for 6, the 3rd highest vocal level, Grade A for 5, the 4th highest vocal level, Grade B for 5th highest vocal level, Grade C for 4, 6th highest vocal level. The highest vocal level of 3 can be replaced with grade D, the 7th highest vocal level of 2 can be replaced with grade E, and the lowest vocal level of 1 can be replaced with grade F.
이 과정을 통해, 장치(200)는 동일한 항목에 동일한 출력 결과를 얻었더라도 종합 보컬 레벨이 높은 사용자가 종합 보컬 레벨이 낮은 사용자보다 해당 항목의 능력이 더 뛰어나다고 판단할 수 있다. 예를 들어, 종합 보컬 레벨이 6인 A 사용자와 종합 보컬 레벨이 3인 B 사용자 모두 음감 평가 모델을 통해 O가 출력된 경우, 장치(200)는 A 사용자의 음감의 보컬 레벨을 A 사용자의 종합 보컬 레벨인 6과 동일하게 6으로 생성하고, B 사용자의 음감의 보컬 레벨을 B 사용자의 종합 보컬 레벨인 3과 동일하게 3으로 생성함으로써, A 사용자 및 B 사용자 모두 음감 평가 모델을 통해 동일한 출력 값인 O를 획득하여도 종합 보컬 레벨이 높은 사용자인 A 사용자가 종합 보컬 레벨이 낮은 B 사용자보다 음감 능력이 더 뛰어나다고 판단할 수 있다.Through this process, the device 200 may determine that a user with a high overall vocal level has better ability for the item than a user with a low overall vocal level even if the same output result is obtained for the same item. For example, if user A with a comprehensive vocal level of 6 and user B with a comprehensive vocal level of 3 both output O through the pitch evaluation model, the device 200 compares the vocal level of user A's pitch to user A's comprehensive vocal level. By generating 6, the same as the vocal level of 6, and creating the vocal level of user B's pitch as 3, the same as 3, the overall vocal level of user B, both user A and user B have the same output value through the pitch evaluation model. Even if O is obtained, user A, who has a high overall vocal level, can be judged to have better pitch ability than user B, who has a low overall vocal level.
또한, 장치(200)는 모든 항목에 대응하여 해당 과정을 수행함으로써 모든 항목에 대응하는 보컬 레벨을 각각 산출할 수 있다.Additionally, the device 200 can calculate vocal levels corresponding to all items by performing the process for all items.
도 7은 일실시예에 따른 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 각 항목에 대응하는 평가 모델의 출력 값을 기초로 생성된 보컬 레벨 및 보컬 등급의 예시 도면이다.Figure 7 is an example diagram of vocal levels and vocal grades generated based on output values of an evaluation model corresponding to each item including pitch, tempo, breathing, rhythm, high pitch, expressiveness, and completeness according to an embodiment.
도 8은 일실시예에 따른 사용자의 발성 속성을 생성하는 과정을 설명하기 위한 순서도이다.Figure 8 is a flow chart to explain the process of generating user's vocalization attributes according to one embodiment.
도 8을 참조하면, S801 단계에서, 장치(200)는 톤 평가 모델을 통해 출력된 값과 속성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LM, HS, LS, HO, LO 중 하나를 사용자의 발성 속성으로 생성할 수 있다.Referring to FIG. 8, in step S801, the device 200 combines the value output through the tone evaluation model and the value output through the attribute evaluation model to determine HF, LF, HM, LM, HS, LS, HO, LO. One of the following can be created as a user's vocalization attribute.
예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 톤 평가 모델을 통해 출력된 값이 H이고, 속성 평가 모델을 통해 출력된 값이 O일 경우, 장치(200)는 톤 평가 모델을 통해 출력된 값인 H와 속성 평가 모델을 통해 출력된 값인 O를 조합하여 사용자의 발성 속성으로 HO를 생성할 수 있다.For example, as a result of applying the vocal data of the first user to the vocal evaluation artificial intelligence model, if the value output through the tone evaluation model is H and the value output through the attribute evaluation model is O, the device 200 HO can be created as a user's vocalization attribute by combining H, the value output through the tone evaluation model, and O, the value output through the attribute evaluation model.
한편, 장치(200)는 사용자의 발성 속성이 생성되면, 발성 특징 데이터베이스를 통해 사용자의 발성 속성에 매칭된 특징을 확인할 수 있고, 사용자의 단말(100)로 사용자의 발성 속성을 제공하는 과정에서 사용자의 발성 속성 및 해당 발성 속성에 매칭된 특징을 같이 제공할 수 있다. 이때, 발성 특징 데이터베이스는 장치(200)에 구비될 수 있으며, 발성 특징 데이터베이스에는 각 발성 속성과 발성 속성에 대응하는 특징이 매칭되어 저장되어 있을 수 있다. Meanwhile, when the user's vocalization properties are created, the device 200 can check the characteristics matched to the user's vocalization properties through the vocalization feature database, and in the process of providing the user's vocalization properties to the user's terminal 100, the user The vocalization properties of and the features matched to the corresponding vocalization properties can be provided together. At this time, a vocalization feature database may be provided in the device 200, and each vocalization attribute and a feature corresponding to the vocalization attribute may be matched and stored in the vocalization feature database.
예를 들어 발성 특징 데이터베이스에는 하기의 예시처럼 발성 속성 - 특징이 매칭되어 있을 수 있다.For example, in the vocalization feature database, vocalization attributes and features may be matched as in the example below.
HF - 가장 강한 힘으로 호흡을 뱉어내는 타입으로, 큰 볼륨의 호흡이 섞여있는 하이톤톤의 허스키한 목소리를 가지고 있다.HF - This is the type that breathes with the strongest force and has a high-pitched, husky voice mixed with loud breathing.
LF - 가장 많은 호흡량을 사용하며 큰 볼륨의 묵직 로우톤으로 허스키하고, 강렬한 감정 표현을 할 수 있다.LF - Uses the largest amount of breathing and can express husky and strong emotions with a heavy low tone at high volume.
HM - 아이돌에 있어서 가장 완성도가 높은 발성을 지녔으며 가장 높은 음역을 소화할 수 있는 유형으로 하이톤의 또렷하고 단단한 목소리를 가지고 있다.HM - He has the highest level of vocalization among idols and is the type that can handle the highest vocal range, and has a high-toned, clear and solid voice.
LM - 로우톤의 큰 볼륨의 또렷한 목소리로 낮은 음에 강점을 보이며 저음부터 고음까지 넓은 음역의 소화가 가능한 유형이다LM - This is a type of low-toned, high-volume, clear voice that shows strength in low notes and can digest a wide range of sounds from low to high notes.
HS - 가장 약한 호흡의 힘을 사용하는 타입으로 작은 볼륨에 호흡이 실린 하이톤의 청아한 목소리가 매력적이다.HS - This is the type that uses the weakest breathing power, and the high-pitched, clear voice with breathing in a small volume is attractive.
LS - 가벼운 힘으로 목소리를 만들어내지만 호흡이 가장 많이 실려있는 로우톤의 목소리를 지녔으며 순수하고 아련한 감성적인 톤을 지닌다.LS - Although the voice is produced with light force, it has a low tone voice with the most breathing and a pure and faint emotional tone.
HO - 작은 호흡의 힘으로 명확하며 또렷한 하이톤의 소리를 낼 수 있다. 맑고 청량한 미성을 소유한 경우가 많다.HO - A clear, high-pitched sound can be produced with the power of small breathing. They often have a clear and refreshing voice.
LO - 나지막한 로우톤의 목소리를 만들어내는 타입으로 가볍게 호흡을 쓰며 성대를 효율적으로 사용하여 명확한 소리가 난다.LO - This is a type of voice that produces a low, low tone. It uses light breathing and uses the vocal cords efficiently to produce a clear sound.
도 9는 일실시예에 따른 발성 속성에 관한 도면이다.Figure 9 is a diagram related to vocalization properties according to one embodiment.
도 10은 일실시예에 따른 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말로 제공하기 위한 사용자의 단말의 출력 인터페이스를 설명하기 위한 도면이다. FIG. 10 is a diagram illustrating an output interface of a user's terminal for providing the user's vocal level and user's vocalization properties to the user's terminal, according to an embodiment.
구체적으로, 장치(200)는 사용자의 단말(100)로 사용자의 보컬 레벨을 포함하는 레벨 측정 결과 및 이에 따른 보컬 트레이닝 정보를 제공할 수 있고, 사용자의 단말(100)은 장치(200)로부터 제공된 레벨 측정 결과 및 이에 따른 보컬 트레이닝 정보를 디스플레이를 통해 출력할 수 있다.Specifically, the device 200 may provide a level measurement result including the user's vocal level and corresponding vocal training information to the user's terminal 100, and the user's terminal 100 may provide the user's terminal 100 with the level measurement result including the user's vocal level and the corresponding vocal training information. Level measurement results and corresponding vocal training information can be output through the display.
본 발명의 실시 예에 따른 항목 레벨 기준표는 가장 왼쪽에 위치한 항목일수록 보다 보컬 기본능력 가중치가 높은 항목으로 배치 구성될 수 있는 바, 보컬 실력 기본기를 갖출 때 필요한 좌측 항목부터 우선적으로 가이드가 제공되도록 처리하면, 보다 효과적 가이드 및 팁을 제공할 수 있는 장점이 있다.The item level standard table according to an embodiment of the present invention can be arranged so that the leftmost items have a higher basic vocal ability weight, so guides are provided preferentially starting from the left items necessary for acquiring basic vocal skills. This has the advantage of providing more effective guides and tips.
또한, 장치(200)는 장치(200)에 구비된 데이터베이스에 복수의 사용자 각각에 매칭된 발성 속성이 저장되어 있어, 사용자의 발성 속성에 따른 전체 사용자 비율, 사용자의 발성 속성에 따른 사용자와 동일한 성별의 비율, 사용자의 발성 속성에 따른 아이돌의 비율이 표시된 발성 속성 정보를 사용자의 단말(100)의 디스플레이에 출력할 수 있다. 여기서, 장치(200)는 사용자의 발성 속성에 따른 사용자와 동일한 성별의 비율을 산출하기 위해 사용자의 단말(100)로부터 사용자의 성별을 더 획득할 수 있고, 또한, 장치(200)는 사용자의 발성 속성에 따른 아이돌의 비율을 산출하기 위해 별개의 아이돌 데이터베이스와 유무선으로 통신할 수 있다. 이때, 아이돌 데이터베이스에는 아이돌의 이름, 아이돌의 성별, 아이돌의 포지션, 아이돌의 발성 속성 등을 포함하는 아이돌의 정보가 저장될 수 있으며, 아이돌은 모든 음악 장르의 가수일 수 있으며, 또한 솔로 가수, 그룹 가수 등을 모두 포함할 수 있다.In addition, the device 200 stores vocalization attributes matched to each of a plurality of users in a database provided in the device 200, so that the proportion of total users according to the user's vocalization attributes and the same gender as the user according to the user's vocalization attributes Vocal attribute information showing the ratio of and the idol's ratio according to the user's vocal attribute can be output on the display of the user's terminal 100. Here, the device 200 may further obtain the user's gender from the user's terminal 100 in order to calculate the ratio of the same gender as the user according to the user's vocalization attributes, and the device 200 may further obtain the user's gender from the user's vocalization attributes. To calculate the ratio of idols according to their attributes, you can communicate with a separate idol database via wired or wireless communication. At this time, the idol database may store information about the idol, including the idol's name, the idol's gender, the idol's position, the idol's vocalization properties, etc. The idol can be a singer of any music genre, and can also be a solo singer or group singer. It can include singers, etc.
도 11은 일실시예에 따른 보컬 데이터를 선정하는 과정을 설명하기 위한 순서도이다.Figure 11 is a flowchart for explaining the process of selecting vocal data according to an embodiment.
도 11을 참조하면, 먼저, S1101 단계에서, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성이 인식되면, 사용자의 음성이 인식된 시점부터 사용자의 음성이 설정 시간 동안 인식되지 않는 시점까지의 음성 데이터를 획득할 수 있다. 여기서, 설정 시간은 미리 설정된 시간으로 실시 예에 따라 달라질 수 있다.Referring to FIG. 11, first, in step S1101, when the user's voice is recognized through the user's terminal 100, the device 200 performs a set period of time from the time the user's voice is recognized until the user's voice is not recognized for a set time. Voice data up to that point can be obtained. Here, the setting time is a preset time and may vary depending on the embodiment.
구체적으로, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식할 수 있고, 사용자의 음성이 인식되면, 인식된 사용자의 음성을 기초로, 생성된 사용자의 음성 데이터를 저장할 수 있다. 이때, 장치(200)는 모든 음성 데이터를 저장하게 되면 저장 공간이 부족하다는 문제가 있기 때문에 이를 해결하기 위해 사용자의 단말(100)을 통해 생성된 사용자의 음성 데이터를 분석하여 해당 음성 데이터가 사용자가 노래를 부르는 데이터인지 아니면 해당 음성 데이터가 사용자가 평상시 말을 하는 음성 데이터인지 구분하여 사용자가 노래를 부른다고 분석된 음성 데이터만 저장할 수 있다. Specifically, the device 200 can recognize the user's voice through the user's terminal 100, and when the user's voice is recognized, the device 200 can store the user's voice data generated based on the recognized user's voice. there is. At this time, the device 200 has a problem of insufficient storage space when storing all the voice data. To solve this problem, the device 200 analyzes the user's voice data generated through the user's terminal 100 and provides the voice data to the user. It is possible to store only voice data analyzed as if the user is singing by distinguishing whether it is singing data or voice data in which the user normally speaks.
이를 위해, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식할 수 있고, 사용자의 단말(100)을 통해 사용자의 음성이 인식되면, 사용자의 음성이 인식된 시점부터 사용자의 음성이 설정 시간동안 인식되지 않는 시점까지의 음성 데이터를 획득할 수 있다. 즉, 설정 시간은 사용자의 음성이 끝나는 시점을 확인하기 위해 설정된 시간이다. 여기서, 음성 데이터의 파일 형식은 한정되지 않고, 실시 예에 따라 다르게 생성될 수 있다.To this end, the device 200 can recognize the user's voice through the user's terminal 100, and when the user's voice is recognized through the user's terminal 100, the user's voice is recognized from the time the user's voice is recognized. Voice data can be acquired up to the point when the voice is not recognized for a set period of time. In other words, the set time is a time set to check when the user's voice ends. Here, the file format of the voice data is not limited and may be generated differently depending on the embodiment.
예를 들어, 설정 시간이 1분일 경우, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식하여, 사용자의 음성이 인식된 시점인 제1 시점을 확인하고, 제1 시점 이후의 제2 시점에서 1분 동안 음성이 인식되지 않는 것으로 확인되면, 제1 시점에서 제2 시점까지의 인식된 음성을 하나의 음성 데이터로 생성할 수 있다. For example, if the setting time is 1 minute, the device 200 recognizes the user's voice through the user's terminal 100, checks the first time point when the user's voice is recognized, and after the first time point If it is confirmed that the voice is not recognized for 1 minute at the second time point, the recognized voice from the first time point to the second time point can be generated as one voice data.
이때, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성이 인식되어, 인식된 사용자의 음성을 기초로, 음성 데이터가 생성되면, 사용자의 단말(100)을 통해 현 위치의 위치 정보 즉, 해당 음성 데이터가 생성된 위치 정보를 획득하여, 음성 데이터와 해당 음성 데이터가 생성된 위치 정보를 매칭할 수 있다. 여기서, 위치 정보는 위치의 좌표 값을 포함할 수 있으며, 이에 한정되는 것은 아니다.At this time, the device 200 recognizes the user's voice through the user's terminal 100, and when voice data is generated based on the recognized user's voice, the device 200 provides location information of the current location through the user's terminal 100. That is, by obtaining location information where the corresponding voice data was generated, it is possible to match the voice data with the location information where the corresponding voice data was generated. Here, the location information may include location coordinate values, but is not limited thereto.
S1102 단계에서, 장치(200)는 음성 데이터를 기초로, 음성 데이터에 포함된 음성의 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하고, 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하고, 높낮이의 차이가 목표 차이보다 큰 높낮이 변화의 횟수를 확인 횟수로 생성할 수 있다. 여기서, 목표 차이는 미리 설정된 차이 값으로 실시 예에 따라 달라질 수 있다.In step S1102, based on the voice data, the device 200 determines a pitch change in which the pitch difference is greater than the target difference among the pitch changes of the voice included in the voice data, and determines a pitch change in which the pitch difference is greater than the target difference. Confirm, and the number of height changes where the difference in height is greater than the target difference can be generated as the number of confirmations. Here, the target difference is a preset difference value and may vary depending on the embodiment.
구체적으로, 장치(200)는 사용자의 단말(100)을 통해 인식된 사용자의 음성을 기초로, 생성된 음성 데이터를 기초로, 음성 데이터에 포함된 음성의 주파수 변화를 확인하여 음성 데이터에 포함된 높낮이 변화를 확인할 수 있다. 또한, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 미리 설정된 목표 차이보다 큰 높낮이 변화를 확인할 수 있다. 또한, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화의 횟수를 확인하여 해당 횟수를 확인 횟수로 생성할 수 있다. Specifically, the device 200 checks the change in frequency of the voice included in the voice data based on the user's voice recognized through the user's terminal 100 and the generated voice data to determine the change in the frequency of the voice included in the voice data. You can check the height change. Additionally, the device 200 may check for pitch changes included in the voice data where the pitch difference is greater than a preset target difference. Additionally, the device 200 may check the number of pitch changes in which the pitch difference is greater than the target difference among the pitch changes included in the voice data and generate the corresponding number as the confirmation number.
즉, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하여 확인 횟수를 생성할 수 있고, 이때, 높낮이 변화는 주파수를 통해 확인할 수 있다.That is, the device 200 can generate the number of confirmations by checking the pitch changes included in the voice data that have a pitch difference greater than the target difference. In this case, the pitch change can be confirmed through frequency.
S1103 단계에서, 장치(200)는 확인 횟수가 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정할 수 있다. 여기서, 목표 횟수는 미리 설정된 횟수로 실시 예에 따라 달라질 수 있다.In step S1103, the device 200 may select voice data with a confirmation count greater than the target number as candidate voice data. Here, the target number is a preset number and may vary depending on the embodiment.
구체적으로, 장치(200)는 사용자의 단말(100)을 통해 인식된 사용자의 음성을 기초로, 음성 데이터를 생성하고, 생성된 음성 데이터의 주파수를 통해 음성 데이터에 포함된 높낮이 변화 중 목표 차이보다 큰 높낮이의 차이를 갖는 높낮이 변화의 횟수를 확인하여 확인 횟수를 생성할 수 있고, 생성된 확인 횟수와 미리 설정된 목표 횟수를 비교하여 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정할 수 있다.Specifically, the device 200 generates voice data based on the user's voice recognized through the user's terminal 100, and determines the target difference among the pitch changes included in the voice data through the frequency of the generated voice data. The number of confirmations can be generated by checking the number of pitch changes with large pitch differences, and by comparing the generated confirmation number with the preset target number, voice data with a confirmation number greater than the preset target number is selected as candidate voice data. can do.
즉, 장치(200)는 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 사용자가 노래를 부르는 과정에서 생성된 음성 데이터로 확인하여 후보 음성 데이터로 선정할 수 있다. 또한, 장치(200)는 후보 음성 데이터로 선정된 음성 데이터를 장치(200)에 구비된 데이터베이스 및 사용자의 단말(100)에 포함된 메모리에 저장할 수 있다. 이때, 장치(200)는 후보 음성 데이터로 선정된 음성 데이터를 저장하는 과정에서 해당 음성 데이터에 매칭된 위치 정보를 함께 저장할 수 있다.That is, the device 200 may select voice data whose confirmation count is greater than a preset target number as candidate voice data by confirming it as voice data generated during the user's singing process. Additionally, the device 200 may store voice data selected as candidate voice data in a database provided in the device 200 and a memory included in the user's terminal 100. At this time, in the process of storing voice data selected as candidate voice data, the device 200 may also store location information matched to the voice data.
S1104 단계에서, 장치(200)는 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정할 수 있다.In step S1104, the device 200 may extract one of the candidate voice data and select it as the user's vocal data.
구체적으로, 장치(200)는 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정할 수 있고, 장치(200)는 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정할 수 있다. 이때, 후보 음성 데이터 중 사용자의 보컬 데이터를 선정하는 과정은 도 12를 참조하여 설명하기로 한다.Specifically, the device 200 may select voice data whose confirmation count is greater than a preset target number as candidate voice data, and the device 200 may extract one of the candidate voice data and select it as the user's vocal data. there is. At this time, the process of selecting the user's vocal data from the candidate voice data will be described with reference to FIG. 12.
이를 통해, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식하고, 인식된 사용자의 음성을 통해 음성 데이터를 생성하고, 음성 데이터를 분석하여 해당 음성 데이터가 사용자가 노래를 부르는 데이터인지 아니면 해당 음성 데이터가 사용자가 평상시 말을 하는 음성 데이터인지 구분하여 사용자가 노래를 부르는 데이터 즉, 후보 음성 데이터만 저장 및 후보 음성 데이터를 보컬 데이터로 사용함으로써 사용자가 보컬 평가를 받기 위해 따로 보컬 데이터를 생성하지 않고도 기존에 저장된 데이터를 통해 보컬 평가를 수행할 수 있다. Through this, the device 200 recognizes the user's voice through the user's terminal 100, generates voice data through the recognized user's voice, and analyzes the voice data to determine whether the voice data is used when the user sings. By distinguishing between data or voice data that the user normally speaks, only data in which the user sings, that is, candidate voice data, is stored and the candidate voice data is used as vocal data, so that the user can sing separately in order to receive a vocal evaluation. Vocal evaluation can be performed using existing stored data without generating data.
도 12는 일실시예에 따른 후보 음성 데이터 중 보컬 데이터를 선정하는 과정을 설명하기 위한 순서도이다.Figure 12 is a flowchart for explaining the process of selecting vocal data from candidate voice data according to an embodiment.
도 12를 참조하면, 먼저, S1201 단계에서, 장치(200)는 후보 음성 데이터에 대응하는 위치 정보를 확인할 수 있다.Referring to FIG. 12, first, in step S1201, the device 200 can check location information corresponding to candidate voice data.
구체적으로, 장치(200)는 후보 음성 데이터에 매칭되어 있는 해당 후보 음성 데이터가 생성된 위치 정보를 확인할 수 있다.Specifically, the device 200 may check location information where the candidate voice data that matches the candidate voice data was generated.
S1202 단계에서, 장치(200)는 위치 정보를 기초로, 유효 위치와 일치하는 위치 정보가 있는지 여부를 확인할 수 있다. 여기서, 유효 위치는 미리 설정된 위치일 수 있으며, 유효 위치는 노래를 부르는 공간의 위치로 예를 들면, 노래방의 위치, 오디션장의 위치, 기획사의 위치 등이 포함될 수 있다.In step S1202, the device 200 may check whether there is location information matching the valid location based on the location information. Here, the effective location may be a preset location, and the effective location may include the location of a singing space, for example, the location of a karaoke room, the location of an audition hall, or the location of an agency.
구체적으로, 장치(200)는 후보 음성 데이터에 매칭되어 있는 해당 후보 음성 데이터가 생성된 위치 정보를 기초로, 미리 설정된 유효 위치와 일치하는 위치 정보가 있는지 여부를 확인할 수 있다.Specifically, the device 200 may check whether there is location information matching a preset valid location based on location information where the candidate voice data that matches the candidate voice data was generated.
S1202 단계에서 유효 위치와 일치하는 위치 정보가 있다고 확인되면, S1203 단계에서, 장치(200)는 유효 위치와 일치하는 위치 정보를 갖는 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.If it is confirmed in step S1202 that there is location information matching the valid location, the device 200 may select candidate voice data having location information matching the valid location as the user's vocal data in step S1203.
구체적으로, 장치(200)는 후보 음성 데이터에 매칭되어 있는 후보 음성 데이터가 생성된 위치 정보를 확인한 결과, 미리 설정된 유효 위치와 일치하는 위치 정보가 있다고 확인되면, 유효 위치와 일치하는 위치 정보를 갖는 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.Specifically, as a result of checking the location information where the candidate voice data matching the candidate voice data was generated, if it is determined that there is location information matching a preset effective location, the device 200 has the location information matching the effective location. Candidate voice data can be selected as the user's vocal data.
예를 들어, 제1 후보 음성 데이터, 제2 후보 음성 데이터, 제3 후보 음성 데이터, 제4 후보 음성 데이터가 있고, 제1 후보 음성 데이터에 제1 위치 정보가 매칭되어 있고, 제2 후보 음성 데이터에 제2 위치 정보가 매칭되어 있고, 제3 후보 음성 데이터에 제3 위치 정보가 매칭되어 있고, 제4 후보 음성 데이터에 제4 위치 정보가 매칭되어 있고, 미리 설정된 유효 위치로 제1 유효 위치, 제2 유효 위치, 제3 유효 위치, 제4 유효 위치가 있을 경우, 장치(200)는 제1 후보 음성 데이터에 매칭되어 있는 제1 위치 정보, 제2 후보 음성 데이터에 매칭되어 있는 제2 위치 정보, 제3 후보 음성 데이터에 매칭되어 있는 제3 위치 정보, 제4 후보 음성 데이터에 매칭되어 있는 제4 위치 정보를 확인한 결과, 제1 위치 정보와 제1 유효 위치와 일치한다고 확인되면, 장치(200)는 제1 유효 위치와 일치하는 위치 정보인 제1 위치 정보를 갖는 제1 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.For example, there is first candidate voice data, second candidate voice data, third candidate voice data, and fourth candidate voice data, the first location information is matched to the first candidate voice data, and the second candidate voice data The second position information is matched to the third candidate voice data, the third position information is matched to the fourth candidate voice data, and the first effective position is a preset effective position, When there is a second effective location, a third effective location, and a fourth effective location, the device 200 provides first location information matched to the first candidate voice data, and second location information matched to the second candidate voice data. , As a result of checking the third location information matched to the third candidate voice data and the fourth location information matched to the fourth candidate voice data, if it is confirmed that the first location information and the first valid location match, the device 200 ) may select the first candidate voice data having first location information, which is location information matching the first effective location, as the user's vocal data.
S1202 단계에서 유효 위치와 일치하는 위치 정보가 없다고 확인되면, S1204 단계에서, 장치(200)는 후보 음성 데이터 중 임의로 하나를 추출하여 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.If it is determined in step S1202 that there is no location information matching the valid location, the device 200 may randomly extract one of the candidate voice data and select the extracted candidate voice data as the user's vocal data in step S1204.
구체적으로, 장치(200)는 후보 음성 데이터에 매칭되어 있는 후보 음성 데이터가 생성된 위치 정보를 확인한 결과, 미리 설정된 유효 위치와 일치하는 위치 정보가 없다고 확인되면, 후보 음성 데이터 중 임의로 하나를 추출하여 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.Specifically, as a result of checking the location information where the candidate voice data matching the candidate voice data was generated, the device 200 determines that there is no position information that matches the preset effective location, randomly extracts one of the candidate voice data and The extracted candidate voice data can be selected as the user's vocal data.
예를 들어, 제1 후보 음성 데이터, 제2 후보 음성 데이터, 제3 후보 음성 데이터, 제4 후보 음성 데이터가 있고, 제1 후보 음성 데이터에 제1 위치 정보가 매칭되어 있고, 제2 후보 음성 데이터에 제2 위치 정보가 매칭되어 있고, 제3 후보 음성 데이터에 제3 위치 정보가 매칭되어 있고, 제4 후보 음성 데이터에 제4 위치 정보가 매칭되어 있고, 미리 설정된 유효 위치로 제2 유효 위치, 제3 유효 위치, 제4 유효 위치가 있을 경우, 장치(200)는 제1 후보 음성 데이터에 매칭되어 있는 제1 위치 정보, 제2 후보 음성 데이터에 매칭되어 있는 제2 위치 정보, 제3 후보 음성 데이터에 매칭되어 있는 제3 위치 정보, 제4 후보 음성 데이터에 매칭되어 있는 제4 위치 정보를 확인한 결과, 제1 위치 정보, 제2 위치 정보, 제3 위치 정보, 제4 위치 정보 중 제2 유효 위치 또는 제3 유효 위치 또는 제4 유효 위치와 일치하는 위치 정보가 없다고 확인되면, 장치(200)는 제1 후보 음성 데이터, 제2 후보 음성 데이터, 제3 후보 음성 데이터, 제4 후보 음성 데이터 중 임의로 하나를 추출하여 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정할 수 있다.For example, there is first candidate voice data, second candidate voice data, third candidate voice data, and fourth candidate voice data, the first location information is matched to the first candidate voice data, and the second candidate voice data The second position information is matched to the third candidate voice data, the third position information is matched to the fourth candidate voice data, the fourth position information is matched to the fourth candidate voice data, and the second effective position is a preset effective position, If there is a third effective location and a fourth effective location, the device 200 may generate the first location information matched to the first candidate voice data, the second location information matched to the second candidate voice data, and the third candidate voice. As a result of checking the third location information matched to the data and the fourth location information matched to the fourth candidate voice data, the second valid one among the first location information, the second location information, the third location information, and the fourth location information If it is determined that there is no location information matching the location or the third valid location or the fourth valid location, the device 200 selects one of the first candidate voice data, the second candidate voice data, the third candidate voice data, and the fourth candidate voice data. One can be randomly extracted and the extracted candidate voice data can be selected as the user's vocal data.
이를 통해, 장치(200)는 후보 음성 데이터가 생성된 위치 정보를 통해 노래방, 오디션장, 기획사 등과 같은 노래를 부르는 공간의 위치와 일치하는 위치 정보가 있는지 확인하고, 확인 결과에 따라 후보 음성 데이터 중 사용자의 보컬 데이터를 선정함으로써 보컬 평가하기 더 적합한 데이터를 선정할 수 있다.Through this, the device 200 checks whether there is location information that matches the location of a singing space such as a karaoke room, audition room, entertainment company, etc. through the location information where the candidate voice data was generated, and according to the confirmation result, among the candidate voice data By selecting the user's vocal data, data more suitable for vocal evaluation can be selected.
도 13은 일실시예에 따른 사용자의 보컬 레벨을 보정하는 과정을 설명하기 위한 순서도이다.Figure 13 is a flowchart for explaining a process for correcting a user's vocal level according to an embodiment.
도 13을 참조하면, 먼저, S1301 단계에서, 장치(200)는 목표 기간 동안 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드할 수 있다. 여기서, 목표 기간은 미리 설정된 기간으로 실시 예에 따라 달라질 수 있다. 또한, 보컬 평가 플랫폼은 보컬 평가를 위해 운영되는 플랫폼으로 장치(200)를 통해 운영되는 플랫폼일 수 있다.Referring to FIG. 13, first, in step S1301, the device 200 may upload the user's vocal data to the vocal evaluation platform for a target period. Here, the target period is a preset period and may vary depending on the embodiment. Additionally, the vocal evaluation platform is a platform operated for vocal evaluation and may be a platform operated through the device 200.
구체적으로, 장치(200)는 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨이 결정되면, 장치(200)는 미리 설정된 목표 기간 동안 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드할 수 있다. Specifically, when the user's vocal level is determined through the vocal evaluation artificial intelligence model, the device 200 may upload the user's vocal data to the vocal evaluation platform for a preset target period.
S1302 단계에서, 장치(200)는 보컬 평가 플랫폼을 통해 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 평가자의 정보 및 평가자의 평가 점수를 획득할 수 있다. 여기서, 장치(200)는 평가자의 단말과 유무선으로 통신할 수 있다.In step S1302, the device 200 may obtain the evaluator's information and the evaluator's evaluation score from the evaluator's terminal who wishes to evaluate the user's vocal data through the vocal evaluation platform. Here, the device 200 can communicate with the evaluator's terminal wired or wirelessly.
구체적으로, 평가자의 단말은 보컬 평가 플랫폼에 접속할 수 있으며, 장치(200)는 보컬 평가 플랫폼에 접속한 평가자의 단말로 사용자의 보컬 데이터를 제공할 수 있고, 또한 장치(200)는 평가자의 단말로부터 평가자의 정보 및 사용자의 보컬 데이터에 대한 평가자의 평가 점수를 획득할 수 있다. 여기서, 평가자의 정보는 평가자의 이름, 평가자의 직업, 평가자의 성별, 평가자의 나이를 포함하는 평가자에 대한 정보일 수 있고, 평가자의 평가 점수는 평가자가 사용자의 보컬 데이터를 평가하는 점수일 수 있다. 이때, 평가자의 평가 점수는 1부터 8내지의 숫자로 부여할 수 있으며, 8은 모든 요소를 충족하면서 흠잡을 데 없이 탄탄한 느낌을 줄 때 부여할 수 있고, 7은 부르면 부를수록 노래에 경청하게 되며, 딱 들어도 순간적으로 잘한다는 생각이 들 때 부여할 수 있고, 6은 많은 연습량이 느껴지는 레벨로, 전반적으로 안정적인 가창을 보여줄 때 부여할 수 있고, 5는 가요, 혹은 케이팝 느낌이 능숙하지만 다소 불안한 요소들로 느껴질 때 부여할 수 있고, 4는 가요, 케이팝처럼 느낌이 나타내기 시작할 때 부여할 수 있고, 3은 최소한의 기본기는 갖고 있지만 가요, 케이팝적인 느낌은 어려운 상태일 때 부여할 수 있고, 2는 노래로써 역할은 하지만 기본기가 아직 부족한 상태일 때 부여할 수 있고, 1은 노래보다는 말에 가까운 상태일 때 부여할 수 있다. 그러나 이에 한정되는 것은 아니다.Specifically, the evaluator's terminal can access the vocal evaluation platform, the device 200 can provide the user's vocal data to the evaluator's terminal connected to the vocal evaluation platform, and the device 200 can receive vocal data from the evaluator's terminal. The evaluator's evaluation score can be obtained for the evaluator's information and the user's vocal data. Here, the evaluator's information may be information about the evaluator including the evaluator's name, evaluator's occupation, evaluator's gender, and evaluator's age, and the evaluator's evaluation score may be the score by which the evaluator evaluates the user's vocal data. . At this time, the evaluator's evaluation score can be given as a number from 1 to 8, with 8 being given when the song satisfies all the elements and gives a flawless and solid feel, and 7 means that the more you sing, the more you listen to the song. , it can be given when you instantly feel that you are good at it just by listening to it, 6 is a level where you can feel a lot of practice, and can be given when you show overall stable singing, and 5 is a song or K-pop feeling that is good but somewhat unstable. 4 can be given when a feeling like K-pop or K-pop begins to appear, 3 can be given when a person has the minimum basic skills but has difficulty feeling like K-pop or K-pop, 2 can be given when can be given when the song functions as a song but the basic skills are still lacking, and 1 can be given when the song is closer to speaking than singing. However, it is not limited to this.
S1303 단계에서, 장치(200)는 평가자의 정보를 통해 평가자가 원곡자인지 여부를 판단할 수 있다.In step S1303, the device 200 can determine whether the evaluator is the original composer through the evaluator's information.
구체적으로, 장치(200)는 평가자의 단말로부터 평가자의 정보 및 사용자의 보컬 데이터에 대한 평가자의 평가 점수를 획득하면, 사용자의 보컬 데이터를 기초로 획득한 곡 정보 및 평가자의 정보를 비교하여 평가자가 원곡자인지 여부를 확인할 수 있다. Specifically, when the device 200 obtains the evaluator's evaluation score for the evaluator's information and the user's vocal data from the evaluator's terminal, the device 200 compares the song information obtained based on the user's vocal data and the evaluator's information to determine the evaluator's evaluation score. You can check whether it is the original composer or not.
S1303 단계에서 평가자가 원곡자로 확인되면, S1304 단계에서, 장치(200)는 평가자의 평가 점수에 제1 가중치를 적용할 수 있다.If the evaluator is confirmed to be the original singer in step S1303, the device 200 may apply a first weight to the evaluator's evaluation score in step S1304.
구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자라고 확인되면, 해당 평가자가 해당 곡을 잘 알 것으로 판단하여 평가자의 평가 점수에 가장 높은 가중치인 제1 가중치를 적용할 수 있다. Specifically, if the evaluator who evaluated the user's vocal data is confirmed to be the original composer of the song obtained based on the user's vocal data, the device 200 determines that the evaluator is familiar with the song and adds the evaluator's evaluation score to the The first weight, which is a high weight, can be applied.
S1303 단계에서 평가자가 원곡자가 아닌 것으로 확인되면, S1305 단계에서, 장치(200)는 평가자의 정보를 통해 평가자가 음악과 관련 있는 직업인지 여부를 판단할 수 있다. 여기서, 음악과 관련 있는 직업은 미리 설정될 수 있으며, 가수, 작사가, 작곡가, 편곡가, 음반기획자, 음악감독, 음악교사, 보컬트레이너 등이 될 수 있다.If it is confirmed in step S1303 that the evaluator is not the original songwriter, in step S1305, the device 200 can determine whether the evaluator has a job related to music through the evaluator's information. Here, occupations related to music can be set in advance and can be singers, lyricists, composers, arrangers, record planners, music directors, music teachers, vocal trainers, etc.
구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자가 아니라고 확인되면, 해당 평가자의 정보를 통해 해당 평가자의 직업을 확인하고, 해당 평가자가 음악과 관련 있는 직업인지 여부를 판단할 수 있다. Specifically, if it is confirmed that the evaluator who evaluated the user's vocal data is not the original composer of the song obtained based on the user's vocal data, the device 200 verifies the occupation of the evaluator through the evaluator's information, and determines the evaluator's occupation. You can determine whether or not your job is related to music.
S1305 단계에서 평가자가 음악과 관련 있는 직업이라고 확인되면, S1306 단계에서, 장치(200)는 평가자의 평가 점수에 제1 가중치보다 작은 제2 가중치를 적용할 수 있다.If it is confirmed that the evaluator has an occupation related to music in step S1305, the device 200 may apply a second weight smaller than the first weight to the evaluator's evaluation score in step S1306.
구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자는 아니지만, 음악과 관련 있는 직업이라고 확인되면, 해당 평가자가 원곡자보다는 해당 곡을 덜 알지만, 그래도 곡에 대해 많이 알 것으로 판단하여 평가자의 평가 점수에 제1 가중치보다 작은 제2 가중치를 적용할 수 있다. Specifically, the device 200 determines that if the evaluator who evaluated the user's vocal data is not the original composer of the song obtained based on the user's vocal data, but is confirmed to have an occupation related to music, the evaluator will select the song rather than the original composer. Although they know less, it is determined that they still know a lot about the song, so a second weight smaller than the first weight can be applied to the evaluator's evaluation score.
S1305 단계에서 평가자가 음악과 관련 있는 직업이 아니라고 확인되면, S1307 단계에서, 장치(200)는 평가자의 평가 점수에 제2 가중치보다 작은 제3 가중치를 적용할 수 있다.If it is confirmed in step S1305 that the evaluator does not have a job related to music, in step S1307, the device 200 may apply a third weight smaller than the second weight to the evaluator's evaluation score.
구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자가 아니고, 음악과 관련 있는 직업이 아니라고 확인되면, 해당 평가자가 원곡자 및 음악과 관련 있는 직업보다는 해당 곡을 덜 알 것으로 판단하여 평가자의 평가 점수에 제2 가중치보다 작은 제3 가중치를 적용할 수 있다. Specifically, if it is confirmed that the evaluator who evaluated the user's vocal data is not the original composer of the song obtained based on the user's vocal data and does not have a job related to music, the device 200 determines that the evaluator is not the original composer and music liaison. A third weight smaller than the second weight can be applied to the evaluator's evaluation score by determining that the person knows less about the song than the related job.
S1308 단계에서, 장치(200)는 가중치가 적용된 평가자의 평가 점수를 기초로, 사용자의 보컬 레벨을 보정할 수 있다.In step S1308, the device 200 may correct the user's vocal level based on the weighted evaluator's evaluation score.
구체적으로, 장치(200)는 목표 기간 동안 보컬 평가 플랫폼을 통해 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 평가자의 정보 및 평가자의 평가 점수를 획득할 수 있고, 장치(200)는 평가자의 정보를 통해 평가자의 평가 점수에 가중치를 적용할 수 있고, 또한, 장치(200)는 목표 기간 동안 획득한 가중치가 적용된 평가자의 평가 점수를 기초로, 사용자의 보컬 레벨을 보정할 수 있다.Specifically, the device 200 may acquire the evaluator's information and the evaluator's evaluation score from the evaluator's terminal who wishes to evaluate the user's vocal data through the vocal evaluation platform during the target period, and the device 200 may obtain the evaluator's information. A weight can be applied to the evaluator's evaluation score, and the device 200 can correct the user's vocal level based on the weighted evaluator's evaluation score obtained during the target period.
이를 통해, 장치(200)는 보컬 평가 인공지능 모델을 통해 획득한 사용자의 보컬 레벨에 평가자의 평가 점수를 고려하여 사용자의 보컬 레벨을 보정할 수 있는 효과가 있다.Through this, the device 200 has the effect of correcting the user's vocal level by considering the evaluator's evaluation score and the user's vocal level obtained through the vocal evaluation artificial intelligence model.
도 14는 일실시예에 따른 사용자의 단말에 오디션 가능 지역에서 진행중인 오디션 콘텐츠를 제공하는 과정을 설명하기 위한 순서도이다.FIG. 14 is a flowchart illustrating a process for providing audition content in progress in an audition available area to a user's terminal according to an embodiment.
도 14를 참조하면, 먼저, S1401 단계에서, 장치(200)는 사용자의 보컬 데이터에 대응하는 위치 정보를 확인하고, 위치 정보를 기초로, 오디션 가능 지역을 선정할 수 있다.Referring to FIG. 14, first, in step S1401, the device 200 may check location information corresponding to the user's vocal data and select an audition area based on the location information.
구체적으로, 장치(200)는 사용자의 보컬 데이터에 매칭된 위치 정보를 확인하고, 위치 정보를 기초로, 위치 정보가 포함된 지역을 오디션 가능 지역으로 선정할 수 있다. 여기서, 오디션 가능 지역은 동 단위일 수도 있고, 구 단위일 수도 있고, 시 단위일 수도 있고, 도 단위일 수도 있고, 그 외의 단위일 수도 있다.Specifically, the device 200 may check location information matched to the user's vocal data and, based on the location information, select an area containing the location information as an audition available area. Here, the auditionable area may be a dong unit, a district unit, a city unit, a province unit, or other units.
또한, 장치(200)는 오디션 모집 사이트와 유무선으로 통신할 수 있는데, 오디션 모집 사이트는 복수의 기획사의 단말과 유무선으로 통신할 수 있다. 즉, 기획사는 오디션을 진행할 지역과 해당 지역에서 진행될 제1 오디션을 소개하는 콘텐츠인 제1 콘텐츠를 제작하여 오디션 모집 사이트에 업로드할 수 있으며, 장치(200)는 오디션 모집 사이트에 업로드 되어 있는 제1 콘텐츠를 확인하여, 어떤 지역에서 어떤 오디션을 진행하는지 확인할 수 있다. 이를 위해, 장치(200)는 오디션 모집 사이트를 운영하는 서버와 연결될 수 있다.Additionally, the device 200 can communicate wired or wirelessly with an audition recruitment site, and the audition recruitment site can communicate wired or wirelessly with terminals of a plurality of agencies. In other words, the agency can produce first content, which is content that introduces the area where the audition will be held and the first audition to be held in that area, and upload it to the audition recruitment site, and the device 200 can generate the first content that is uploaded to the audition recruitment site. By checking the content, you can see which auditions are being held in which region. To this end, the device 200 may be connected to a server that operates an audition recruitment site.
S1402 단계에서, 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠가 재생되어 표시되도록 제어할 수 있다In step S1402, the device 200 may control the first content to be played and displayed on the user's terminal 100.
구체적으로, 장치(200)는 제1 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인하고, 제1 콘텐츠를 통해 해당 오디션이 오디션 가능 지역에서 진행되는 것을 확인하면 장치(200)는 오디션 모집 사이트를 운영하는 서버로부터 제1 콘텐츠의 정보를 획득하고, 제1 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제1 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제1 콘텐츠가 표시되도록 제어할 수 있다.Specifically, the device 200 confirms that the first content is uploaded to the audition recruitment site, and when it confirms through the first content that the corresponding audition is held in an audition available area, the device 200 connects the server to the server that operates the audition recruitment site. Information on the first content can be obtained from the user, and the information on the first content can be transmitted to the user's terminal 100. Through this, the first content is played on the user's terminal 100, and the user's terminal 100 The first content can be controlled to be displayed on the screen.
S1403 단계에서, 장치(200)는 오디션 가능 지역 내에 위치한 기획사들 중 제1 기획사에서 업로드한 콘텐츠인 제2 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 사용자의 단말(100)에서 제1 콘텐츠에 이어서 제2 콘텐츠가 재생되어 표시되도록 제어할 수 있다.In step S1403, when the second content, which is content uploaded by a first agency among agencies located within an audition available area, is uploaded to the audition recruitment site, the device 200 continues the first content on the user's terminal 100. 2 You can control how content is played and displayed.
구체적으로, 장치(200)는 오디션 가능 지역 내에 위치한 제1 기획사에서 업로드한 제2 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인되면, 오디션 모집 사이트를 운영하는 서버로부터 제2 콘텐츠의 정보를 획득하고, 제2 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제1 콘텐츠의 재생이 완료되면 이어서 제2 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제2 콘텐츠가 표시되도록 제어할 수 있다. 이를 위해, 오디션 모집 사이트에는 오디션 모집 사이트에 업로드 된 콘텐츠와 매칭하여 해당 콘텐츠를 업로드한 기획사의 정보가 더 저장되어 있을 수 있다.Specifically, when the device 200 confirms that the second content uploaded by the first agency located within the audition available area is uploaded to the audition recruitment site, the device 200 obtains information about the second content from the server operating the audition recruitment site, and 2 Content information can be transmitted to the user's terminal 100, and through this, when playback of the first content is completed on the user's terminal 100, the second content is played subsequently, and the screen of the user's terminal 100 is displayed. It is possible to control the second content to be displayed. For this purpose, the audition recruitment site may further store information about the agency that matched the content uploaded to the audition recruitment site and uploaded the content.
장치(200)는 사용자의 단말(100)에서 제1 콘텐츠를 재생하고, 제2 콘텐츠가 업로드되었다면 제1 콘텐츠 재생 후 제2 콘텐츠가 재생되도록 제어함으로써, 사용자는 오디션 가능 지역에서 진행하는 다양한 오디션 소개를 접할 수 있도록 할 수 있다.The device 200 plays the first content on the user's terminal 100, and if the second content has been uploaded, controls the second content to be played after the first content, so that the user is introduced to various auditions held in audition available areas. You can make it accessible.
S1404 단계에서, 장치(200)는 오디션 가능 지역 내에 위치한 기획사들 중 제2 기획사에서 업로드한 콘텐츠인 제3 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 사용자의 단말(100)에서 제2 콘텐츠에 이어서 제3 콘텐츠가 재생되어 표시되도록 제어할 수 있다.In step S1404, if the third content, which is content uploaded by a second agency among agencies located within the audition available area, is uploaded to the audition recruitment site, the device 200 continues the second content in the user's terminal 100. 3 You can control how content is played and displayed.
구체적으로, 장치(200)는 오디션 가능 지역 내에 위치한 제2 기획사에서 업로드한 제3 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인되면, 오디션 모집 사이트를 운영하는 서버로부터 제3 콘텐츠의 정보를 획득하고, 제3 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제2 콘텐츠의 재생이 완료되면 이어서 제3 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제3 콘텐츠가 표시되도록 제어할 수 있다. Specifically, when the device 200 confirms that the third content uploaded by the second agency located within the audition available area is uploaded to the audition recruitment site, the device 200 obtains information about the third content from the server operating the audition recruitment site, and 3 The information on the content can be transmitted to the user's terminal 100, and through this, when the playback of the second content is completed on the user's terminal 100, the third content is played subsequently, and the screen of the user's terminal 100 is displayed. You can control the display of third content.
즉, 장치(200)는 오디션 가능 지역 내에 위치한 여러 기획사들이 업로드한 콘텐츠를 제공함으로써 사용자에게 오디션 가능 지역 내에 위치한 다양한 기획사의 정보를 제공할 수 있으며, 제2, 제3 콘텐츠를 재생하는 것으로 기획사들의 다양성과 다양한 기회를 보여줄 수 있다.In other words, the device 200 can provide the user with information on various agencies located within the audition available area by providing content uploaded by various agencies located within the audition available area, and plays the second and third contents of the agencies. It can show diversity and various opportunities.
S1405 단계에서, 장치(200)는 사용자의 단말(100)에서 제3 콘텐츠에 이어서 제1 콘텐츠가 재생되어 표시되도록 제어할 수 있다.In step S1405, the device 200 may control the user's terminal 100 to play and display the first content following the third content.
구체적으로 장치(200)는 사용자의 단말(100)에서 제3 콘텐츠의 재생이 완료되면 이어서 제1 콘텐츠가 재생되어 사용자의 단말(100)의 화면에 제1 콘텐츠가 다시 표시되도록 제어할 수 있다.Specifically, the device 200 can control the first content to be played again when the third content is completed on the user's terminal 100 so that the first content is displayed again on the screen of the user's terminal 100.
장치(200)는 사용자의 단말(100)에서 제1, 제2, 제3 콘텐츠를 순서대로 재생하는 것으로, 사용자에게 오디션 가능 지역에서 진행될 오디션의 정보와 오디션 가능 지역에 위치한 기획사의 소개를 차례로 보여줄 수 있으므로, 제1, 제2, 제3 콘텐츠를 순차적으로 재생함으로써 사용자에게 점진적으로 오디션의 정보와 기획사의 소개를 전달할 수 있고, 이러한 접근 방식은 정보를 순차적으로 전달하면서 사용자의 관심을 유지시키고 정보를 숙지시킬 수 있다.The device 200 plays the first, second, and third contents in order on the user's terminal 100, and sequentially shows the user information about auditions to be held in audition available areas and introduction of agencies located in audition available areas. Therefore, by sequentially playing the first, second, and third contents, audition information and the introduction of the agency can be gradually delivered to the user. This approach maintains the user's interest while delivering information sequentially and You can become familiar with it.
S1406 단계에서, 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠에 이어서 제2 콘텐츠 및 제3 콘텐츠가 함께 재생되어 표시되도록 제어할 수 있다.In step S1406, the device 200 may control the user's terminal 100 to play and display the second content and the third content together following the first content.
구체적으로 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠의 재생이 완료되면 이어서 제2 콘텐츠 및 제3 콘텐츠가 함께 재생되어, 사용자의 단말(100)의 화면에 제2 콘텐츠 및 제3 콘텐츠가 분할되어 표시되도록 제어할 수 있다.Specifically, when the playback of the first content is completed on the user's terminal 100, the device 200 then plays the second content and the third content together, and displays the second content and the third content on the screen of the user's terminal 100. You can control the content to be split and displayed.
장치(200)는 사용자의 단말(100)을 통해 제공되는 콘텐츠들이 시각적으로 효과적으로 전달되므로 사용자는 다양한 정보를 놓치지 않고 접할 수 있도록 하고, 사용자는 오디션 가능 지역에서 진행될 오디션의 정보와 오디션 가능 지역에 위치한 기획사의 소개에 대한 흥미를 높이고, 더 많은 오디션 참가 기회를 얻을 수 있다. 또한 기획사들에 대한 정보도 쉽게 접하면서 음악적 활동에 대한 선택과 의사 결정에 도움을 줄 수 있다.The device 200 allows the user to access various information without missing it because the content provided through the user's terminal 100 is visually and effectively delivered, and the user receives information about auditions to be held in the audition available area and locations located in the audition available area. You can increase interest in the agency's introduction and get more opportunities to participate in auditions. Additionally, you can easily access information about entertainment companies, which can help you make choices and decisions about musical activities.
도 15는 일실시예에 따른 장치의 구성의 예시도이다.Figure 15 is an exemplary diagram of the configuration of a device according to an embodiment.
일실시예에 따른 장치(200)는 프로세서(210) 및 메모리(220)를 포함한다. 일실시예에 따른 장치(200)는 상술한 서버 또는 단말일 수 있다. 프로세서(210)는 도 1 내지 도 14를 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 14를 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(220)는 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(220)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다. Device 200 according to one embodiment includes a processor 210 and memory 220. The device 200 according to one embodiment may be the server or terminal described above. The processor 210 may include at least one device described above with reference to FIGS. 1 to 14 or may perform at least one method described with reference to FIGS. 1 to 14 . The memory 220 may store information related to the above-described method or store a program implementing the above-described method. Memory 220 may be volatile memory or non-volatile memory.
프로세서(210)는 프로그램을 실행하고, 장치(200)를 제어할 수 있다. 프로세서(210)에 의하여 실행되는 프로그램의 코드는 메모리(220)에 저장될 수 있다. 장치(200)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.The processor 210 can execute programs and control the device 200. The code of the program executed by the processor 210 may be stored in the memory 220. The device 200 is connected to an external device (eg, a personal computer or a network) through an input/output device (not shown) and can exchange data.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods, and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, and a field programmable gate (FPGA). It may be implemented using one or more general-purpose or special-purpose computers, such as an array, programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. A processing device may execute an operating system (OS) and one or more software applications that run on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described with limited drawings as described above, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims also fall within the scope of the following claims.
Claims (3)
사용자의 단말로부터 상기 사용자의 보컬 데이터를 획득하는 단계;
상기 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하는 단계;
상기 사용자의 보컬 데이터 및 상기 곡 정보를 보컬 평가 인공지능 모델에 적용하여 상기 사용자의 평가 결과 데이터를 출력하는 단계;
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계;
상기 사용자의 평가 결과 데이터를 기초로, HF, LF, HM, LM, HS, LS, HO, LO 중 하나로 생성되는 사용자의 발성 속성을 생성하는 단계; 및
상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 상기 사용자의 단말로 제공하는 단계를 포함하고,
상기 보컬 평가 인공지능 모델은
항목 평가 모델 및 발성 속성 평가 모델을 포함하고,
상기 항목 평가 모델은
상기 곡 정보를 통해 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 상기 사용자의 보컬 데이터를 통해 상기 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 상기 음의 높이인 제2 높이를 파악하고, 상기 제1 거리와 상기 제2 거리를 비교하고, 상기 제1 높이와 상기 제2 높이를 비교하여 상기 제1 거리와 상기 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 상기 제1 높이와 상기 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 O를 출력하고, 상기 제1 거리와 상기 제2 거리의 차이가 상기 제1 기준 차이 내에 포함되어 있지 않거나, 상기 제1 높이와 상기 제2 높이의 차이가 상기 제2 기준 차이 내에 포함되어 있지 않다고 확인되면 X를 출력하는 음감 평가 모델,
상기 곡 정보를 통해 기준 BPM을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 BPM을 벗어난 구간을 생성하고, 상기 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 O를 출력하고, 상기 기준 BPM을 벗어난 구간이 상기 기준 시간보다 길거나 동일하다고 확인되면 X를 출력하는 템포감 평가 모델,
상기 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 파악하여, 상기 비브라토가 미리 설정한 제1 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 비브라토가 상기 제1 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 호흡 컨트롤 평가 모델,
상기 곡 정보를 통해 기준 리듬을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 파악하여, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 미리 설정한 제2 기준 횟수를 만족하였다고 포함되었다고 확인되면 O를 출력하고, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 상기 제2 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 리듬감 평가 모델,
상기 사용자의 보컬 데이터를 통해 상기 사용자의 음역대를 확인하고, 상기 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 상기 기준 고음 높이에서 음의 변화가 미리 설정된 기준 변화보다 작다고 확인되면 O를 출력하고, 상기 기준 고음 높이에서 음의 변화가 상기 기준 보다 크거나 같다고 확인되면 X를 출력하는 고음 안정감 평가 모델,
상기 사용자의 보컬 데이터를 통해 딕션의 강세 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 소리의 질감 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 볼륨의 크기 변화 횟수를 생성하여, 상기 딕션의 강세 변화 횟수, 상기 소리의 질감 변화 횟수, 및 상기 볼륨의 크기 변화 횟수를 합산한 횟수인 상기 사용자의 표현 횟수가 미리 설정된 제3 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 사용자의 표현 횟수가 상기 제3 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 표현력 평가 모델, 및
상기 음감 평가 모델, 상기 템포감 평가 모델, 상기 호흡 컨트롤 평가 모델, 상기 리듬감 평가 모델, 상기 고음 안정감 평가 모델, 상기 표현력 평가 모델에서 모두 O가 출력된 경우, 상기 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 파악하여, 상기 임팩트가 있는 부분이 있다고 확인되면 O를 출력하고, 상기 임팩트가 있는 부분이 없다고 확인되면 X를 출력하는 완성도 평가 모델을 포함하고,
상기 발성 속성 평가 모델은
상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 주파수를 확인하고, 상기 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 H를 출력하고, 상기 사용자의 평균 음성 주파수가 상기 기준 주파수보다 낮거나 동일하다고 확인되면 L을 출력하는 톤 평가 모델, 및
상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 데시벨을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 성대접지 여부를 확인하여, 상기 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 상기 사용자의 성대가 접지되었다고 확인되면 M을 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 크고 상기 사용자의 성대가 접지되지 않았다고 확인되면 F를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되었다고 확인되면 O를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되지 않았다고 확인되면 S를 출력하는 속성 평가 모델을 포함하고,
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계는,
상기 사용자의 종합 보컬 레벨을 산출하는 단계, 및
항목 별 보컬 레벨을 산출하는 단계를 포함하고,
상기 사용자의 종합 보컬 레벨을 산출하는 단계는
상기 항목 평가 모델을 통해 출력된 O의 총 개수를 확인하는 단계, 및
상기 O의 총 개수에 +1을 적용하여 상기 사용자의 종합 보컬 레벨을 생성하는 단계를 포함하고,
항목 별 보컬 레벨을 산출하는 단계는,
상기 사용자의 종합 보컬 레벨이 생성되면, 상기 보컬 레벨을 산출하고자 하는 항목인 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인지, X인지 여부를 확인하는 단계,
상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여하는 단계,
상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 상기 확인 항목이 완성도인지 여부를 판단하는 단계,
상기 확인 항목이 완성도라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계, 및
상기 확인 항목이 완성도가 아니라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계를 포함하고,
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계는,
상기 톤 평가 모델을 통해 출력된 값과 상기 속성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LM, HS, LS, HO, LO 중 하나를 상기 사용자의 발성 속성으로 생성하는 단계인,
사용자의 단말을 이용한 보컬 데이터 수집 및 이를 이용한 보컬 평가 방법.In the vocal data collection using the user's terminal and the vocal evaluation method using the same, which is performed by the device,
Obtaining the user's vocal data from the user's terminal;
Obtaining song information based on the user's vocal data;
Applying the user's vocal data and the song information to a vocal evaluation artificial intelligence model to output the user's evaluation result data;
calculating the user's vocal level based on the user's evaluation result data;
Based on the user's evaluation result data, generating a user's vocalization attribute as one of HF, LF, HM, LM, HS, LS, HO, and LO; and
Providing the user's vocal level and the user's vocalization attributes to the user's terminal,
The vocal evaluation artificial intelligence model is
Includes an item evaluation model and a speech attribute evaluation model;
The item evaluation model above is
The first distance, which is the distance between sounds in the first setting section, and the first height, which is the height of the sound, are determined through the song information, and a second setting corresponding to the first setting section is determined through the user's vocal data. Determine the second distance, which is the distance between sounds in the section, and the second height, which is the height of the sound, compare the first distance and the second distance, and compare the first height and the second height. If it is confirmed that the difference between the first distance and the second distance is within a preset first reference difference, and that the difference between the first height and the second height is within a preset second reference difference, output O, Output A pitch evaluation model that
The standard BPM is confirmed through the song information, a section outside the standard BPM is created through the user's vocal data, and if it is confirmed that the section outside the standard BPM is shorter than the preset standard time, O is output, and the standard BPM is generated. A tempo evaluation model that outputs
The number of times the vibrato is included is determined through the user's vocal data, and if it is confirmed that the vibrato satisfies the first standard number of times set in advance, O is output, and it is confirmed that the vibrato does not satisfy the first standard number of times. A respiratory control evaluation model that outputs
The reference rhythm is confirmed through the song information, the number of times the bending and vibration corresponding to the reference rhythm is included is determined through the user's vocal data, and the number of times the bending and vibration corresponding to the reference rhythm is included is calculated in advance. Rhythm evaluation that outputs O when it is confirmed that the set second standard number of times was satisfied, and outputs X when it is confirmed that the number of bending and vibrations corresponding to the standard rhythm was included did not satisfy the second standard number. Model,
Confirm the user's vocal range through the user's vocal data, generate a reference treble height based on the user's vocal range, and output O when it is confirmed that the change in sound in the reference treble height is smaller than the preset reference change. , a treble stability evaluation model that outputs
Generating the number of changes in diction's accent through the user's vocal data, generating the number of changes in sound texture through the user's vocal data, and generating the number of changes in volume size through the user's vocal data, and generating the diction If it is confirmed that the number of expressions of the user, which is the number of times the stress change, the number of changes in the texture of the sound, and the number of changes in the volume, satisfy the preset third standard number, O is output, and the user's expression An expression evaluation model that outputs X when it is confirmed that the number of times does not meet the third standard number, and
When O is output in all of the pitch evaluation model, the tempo evaluation model, the breathing control evaluation model, the rhythm evaluation model, the treble stability evaluation model, and the expressiveness evaluation model, an impactful portion through the user's vocal data It includes a completeness evaluation model that determines whether there is a part with the impact, outputs O if it is confirmed that there is a part with the impact, and outputs X if it is confirmed that there is no part with the impact,
The vocalization attribute evaluation model is
The user's average voice frequency is checked through the user's vocal data, and if it is confirmed that the user's average voice frequency is higher than the preset reference frequency, H is output, and the user's average voice frequency is lower than the reference frequency. a tone evaluation model that outputs L if confirmed to be identical, and
The user's average voice decibel is confirmed through the user's vocal data, and whether the user's vocal cords are grounded through the user's vocal data, and the user's average voice decibel is greater than a preset reference decibel and the user's If it is confirmed that the vocal cords are grounded, M is output, and if the user's average voice decibel is greater than the reference decibel and it is confirmed that the user's vocal cords are not grounded, F is output, and the user's average voice decibel is less than the reference decibel. If it is confirmed that the user's vocal cords are grounded, O is output, and if the user's average voice decibel is less than or equal to the reference decibel and it is confirmed that the user's vocal cords are not grounded, an attribute evaluation model outputs S. Contains,
The step of calculating the user's vocal level based on the user's evaluation result data,
calculating the user's overall vocal level, and
Including the step of calculating the vocal level for each item,
The step of calculating the user's comprehensive vocal level is
Checking the total number of O output through the item evaluation model, and
Generating the user's overall vocal level by applying +1 to the total number of O's,
The steps for calculating the vocal level for each item are:
When the user's comprehensive vocal level is generated, checking whether the output value of the item evaluation model corresponding to the confirmation item for which the vocal level is to be calculated is O or X;
If the output value of the item evaluation model corresponding to the confirmation item is confirmed to be O, assigning the vocal level of the confirmation item as a vocal level with the same level value as the user's overall vocal level,
When it is confirmed that the output value of the item evaluation model corresponding to the confirmation item is X, determining whether the confirmation item is complete;
If the confirmation item is confirmed to be complete, assigning the vocal level of the confirmation item as a vocal level of a level value generated by applying -3 to the user's overall vocal level, and
When it is confirmed that the confirmation item is not complete, assigning the vocal level of the confirmation item as a vocal level of a level value generated by applying -2 to the user's overall vocal level,
The step of generating the user's vocalization attributes based on the user's evaluation result data,
A step of combining the value output through the tone evaluation model and the value output through the attribute evaluation model to generate one of HF, LF, HM, LM, HS, LS, HO, and LO as the user's vocalization attribute. ,
Vocal data collection using the user's terminal and vocal evaluation method using the same.
사용자의 단말로부터 상기 사용자의 보컬 데이터를 획득하는 단계;는
상기 사용자의 단말을 통해 상기 사용자의 음성이 인식되면, 상기 사용자의 음성이 인식된 시점부터 상기 사용자의 음성이 미리 설정된 설정 시간 동안 인식되지 않는 시점까지의 음성 데이터를 획득하는 단계,
상기 음성 데이터를 기초로, 상기 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 미리 설정된 목표 차이보다 큰 높낮이 변화를 확인하고, 상기 목표 차이보다 큰 높낮이 변화의 횟수를 확인 횟수로 생성하는 단계,
상기 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정하는 단계,
상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계를 포함하고,
상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계는,
상기 후보 음성 데이터에 대응하는 위치 정보를 확인하는 단계,
상기 위치 정보를 기초로, 미리 설정된 유효 위치와 일치하는 위치 정보가 있는지 여부를 확인하는 단계,
상기 유효 위치와 일치하는 위치 정보가 있다고 확인되면, 상기 유효 위치와 일치하는 위치 정보를 갖는 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계, 및
상기 유효 위치와 일치하는 위치 정보가 없다고 확인되면, 상기 후보 음성 데이터 중 임의로 하나를 추출하여 상기 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계를 포함하는,
사용자의 단말을 이용한 보컬 데이터 수집 및 이를 이용한 보컬 평가 방법.According to paragraph 1,
Obtaining the user's vocal data from the user's terminal;
When the user's voice is recognized through the user's terminal, acquiring voice data from the time the user's voice is recognized to the time when the user's voice is not recognized for a preset time,
Based on the voice data, confirming a pitch change whose pitch difference is greater than a preset target difference among the pitch changes included in the voice data, and generating the number of pitch changes greater than the target difference as the number of confirmations,
Selecting voice data whose number of confirmations is greater than a preset target number as candidate voice data;
Extracting one of the candidate voice data and selecting it as the user's vocal data,
The step of extracting one of the candidate voice data and selecting it as the user's vocal data is,
Confirming location information corresponding to the candidate voice data,
Based on the location information, checking whether there is location information matching a preset valid location,
When it is confirmed that there is location information matching the effective location, selecting candidate voice data having location information matching the effective location as the user's vocal data, and
When it is determined that there is no location information matching the effective location, randomly extracting one of the candidate voice data and selecting the extracted candidate voice data as the user's vocal data,
Vocal data collection using the user's terminal and vocal evaluation method using the same.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230114209A KR102623419B1 (en) | 2023-08-30 | 2023-08-30 | A method of collecting vocal data using a user's terminal and performing vocal evaluation using it |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230114209A KR102623419B1 (en) | 2023-08-30 | 2023-08-30 | A method of collecting vocal data using a user's terminal and performing vocal evaluation using it |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102623419B1 true KR102623419B1 (en) | 2024-01-10 |
Family
ID=89511741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230114209A KR102623419B1 (en) | 2023-08-30 | 2023-08-30 | A method of collecting vocal data using a user's terminal and performing vocal evaluation using it |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102623419B1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101917216B1 (en) | 2017-08-08 | 2018-11-09 | (주)엠더블유스토리 | Vocal Evaluating System |
KR102107588B1 (en) | 2018-10-31 | 2020-05-07 | 미디어스코프 주식회사 | Method for evaluating about singing and apparatus for executing the method |
KR102139889B1 (en) | 2019-08-12 | 2020-07-30 | 박지선 | A Real-Time Collaboration and Evaluation System for a Music Creation Activities on an online Platform |
KR102259612B1 (en) | 2020-07-15 | 2021-06-01 | 김영균 | Music platform system for online training and online audition |
KR20220036717A (en) * | 2020-09-16 | 2022-03-23 | 한양대학교 산학협력단 | Method for providing vocal learning information, server and program using the same |
KR20220115157A (en) * | 2021-02-10 | 2022-08-17 | 케이팝팩토리 주식회사 | Method of analyzing vocalization of user and device of performing the same |
-
2023
- 2023-08-30 KR KR1020230114209A patent/KR102623419B1/en active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101917216B1 (en) | 2017-08-08 | 2018-11-09 | (주)엠더블유스토리 | Vocal Evaluating System |
KR102107588B1 (en) | 2018-10-31 | 2020-05-07 | 미디어스코프 주식회사 | Method for evaluating about singing and apparatus for executing the method |
KR102139889B1 (en) | 2019-08-12 | 2020-07-30 | 박지선 | A Real-Time Collaboration and Evaluation System for a Music Creation Activities on an online Platform |
KR102259612B1 (en) | 2020-07-15 | 2021-06-01 | 김영균 | Music platform system for online training and online audition |
KR20220036717A (en) * | 2020-09-16 | 2022-03-23 | 한양대학교 산학협력단 | Method for providing vocal learning information, server and program using the same |
KR20220115157A (en) * | 2021-02-10 | 2022-08-17 | 케이팝팩토리 주식회사 | Method of analyzing vocalization of user and device of performing the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tatar et al. | Musical agents: A typology and state of the art towards musical metacreation | |
US11562722B2 (en) | Cognitive music engine using unsupervised learning | |
EP3803846B1 (en) | Autonomous generation of melody | |
KR102354592B1 (en) | Method, server and computer program for recommending video editing point based on streaming data | |
WO2015061788A1 (en) | Self organizing maps (soms) for organizing, categorizing, browsing and/or grading large collections of assignments for massive online education systems | |
Lim et al. | Towards expressive musical robots: a cross-modal framework for emotional gesture, voice and music | |
Roy et al. | iMusic: a session-sensitive clustered classical music recommender system using contextual representation learning | |
Sarin et al. | SentiSpotMusic: a music recommendation system based on sentiment analysis | |
KR102623431B1 (en) | A method of matching users and trainers based on user vocal ratings | |
Chen et al. | Robotic musicianship based on least squares and sequence generative adversarial networks | |
JP2018032316A (en) | Video generation device, video generation model learning device, method for the same, and program | |
Xambó et al. | Live Coding with the Cloud and a Virtual Agent | |
KR102354593B1 (en) | Method, server and computer program for classifying video editing types and advancing edit point recommendation algorithm through user database construction and machine learning | |
KR102564182B1 (en) | Method, apparatus and system for extracting facial expression images based on image data using artificial intelligence models and creating contents using them | |
Bretan et al. | Chronicles of a Robotic Musical Companion. | |
KR102623419B1 (en) | A method of collecting vocal data using a user's terminal and performing vocal evaluation using it | |
KR102623446B1 (en) | A method for selecting user-customized audition songs based on user vocal evaluation | |
KR102623424B1 (en) | A method of providing customized vocal evaluation reports | |
KR102624135B1 (en) | Artificial intelligence-based non-face-to-face programming training automation platform service provision method, device and system for enterprises | |
KR102623459B1 (en) | Method, apparatus and system for providing audition event service based on user's vocal evaluation | |
Assayag et al. | Cocreative Interaction: Somax2 and the REACH Project | |
KR102623467B1 (en) | Method, apparatus and system for providing agency recommendation service based on user vocal evaluation information | |
Wang | Music composition and emotion recognition using big data technology and neural network algorithm | |
KR102623449B1 (en) | User vocal evaluation result customized vocal training service providing method, apparatus and system | |
KR102623462B1 (en) | Method, apparatus and system for providing vocal academy information based on user vocal evaluation information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |