Как «играть» песни K онлайн — Интервью с Ченг Ле, аудио- и видеоархитектором Tear

cdcca59929e1478ceac02b60b2c34468.jpeg

Примечание редактора: Бизнес онлайн-караоке развивается уже десять лет, и Ченг Лэ также десять лет, а то и дольше, работает в сфере аудио и видео. Почему стоит выбрать сферу онлайн-караоке? Как пройти через «длинный сезон» и открыть для себя новые декорации? Как разделить кусок мяса в непростой косточке «онлайн-караоке»? Под этой серией вопросов есть только один простой ответ: интерес. Ниже приводится рассказ Ченг Ле:

01Интерес  определяет все

Примерно в средней школе я начал проявлять большой интерес к аудио и видео. От радиоприемников, магнитофонных проигрывателей, компакт-дисков, видеодисков, DVD-дисков, mp3 до MP4, планшетов, камер и т. д., которые стали популярными в колледже, они в основном были приобретены за счет экономии денег, и у меня часто возникали проблемы с родителями из-за этого. .

c9a9cb70b978c11f1717b564e5c64adb.pngЧенг Ле

Когда я учился в колледже, у меня было много свободного времени. Это было как раз перед появлением смартфонов, и устройства MP4 были популярны. В те годы я в основном продавал старые и покупал новые. новейшие устройства, поддерживающие только один видеоформат 480p Xvid до 720p rmvb, перешли на 1080p H264 и даже перешли на 4K в конце своей жизни (это было еще до 2010 года). В то время я также был очень активен на форуме imp3 (сейчас он закрыт), обсуждая производительность декодирования нового чипа, а также преимущества и недостатки различных форматов кодирования;

d6cebff8e3fb123f52b24be08ef35a21.jpegВ ноябре 2018 года iMP3 официально объявил о закрытии.

Также участвуйте в оценочных акциях различных производителей, пишите оценки, и вы можете начать с половины цены машины. Под влиянием форума в то время я тоже начал жечь наушники.В каких наушниках можно добиться глубоких басов, средних частот и сладости высоких , насколько лучше Ape Flac без потерь, чем WMA MP3 и т.д. все в рамках баловства.

Моей второй работой после окончания университета было изготовление ТВ-боксов, хотя конечный результат был не очень хорошим, но забот в то время было очень мало, и моя жизнь была счастливой и чистой. В то время я каждый день думал о том, как улучшить совместимость локального воспроизведения, как упаковать форматы MP4/flv/mkv/ts, как сделать навигацию по Blu-ray, как анализировать и воспроизводить субтитры ASS/PGS и как адаптировать каждый аппаратный декодер. , как улучшить стабильность воспроизведения по сети и так далее.

Состояние в то время было похоже на серьезного игрока, начинающего разрабатывать новую игру по собственному желанию , что вполне устраивало с точки зрения опыта работы.

Позже, когда начали набирать обороты мобильные прямые трансляции и короткие видео, я использовал накопленный ранее опыт работы со звуком и видео, чтобы превратить его в мобильные прямые трансляции и короткие видео SDK.В то время многие клиенты все еще должны были его использовать. Позже я начал играть в языковом чате в режиме реального времени сцену с песнями K, которая также была перенесена из партии B в партию A.

Короче говоря, я работал всю жизнь после окончания университета, и мне очень повезло, что я работаю в той области, которая мне интересна. Оглядываясь назад, интерес очень необходим и эффективен для преодоления порога аудио и видео , поэтому я надеюсь, что студенты, которые хотят войти в эту отрасль, смогут развить интерес к аудио и видео.

02  В караоке-треке убить кровавую дорогу

Далее поговорим о бизнесе. Я присоединился к Framefun в 2019 году, а затем начал брать на себя технологии компании, связанные со звуком и видео, и общее впечатление от K-песен. Основное внимание уделяется клиентской стороне.Большинство аудио- и видеовозможностей на стороне сервера используют сторонние сервисы, и самостоятельно будет меньше действий.

Итак, по сравнению с другими крупными производителями, в чем наше технологическое преимущество?

Во-первых, у нас есть бизнес-команда с высокой боеспособностью, которая может быстро пробовать и ошибаться в различных новых играх с мозговыми отверстиями, а часто и новых для пользователей. Tear Song также провела много исследований в игровом процессе караоке.Например, первая игра для двух игроков и более поздняя игра для нескольких игроков работают в направлении, в котором легче общаться. .

478fededd9d6072c2ea907629fad57aa.png

Различные способы накрутки песен в основном бьют по интересам молодежи.

Любой, кто знаком с разрывом песен, может видеть, что разрыв песен основан на игровом процессе караоке в реальном времени . Караоке — это социальная игра. У всех есть общее увлечение пением, и легче открывать темы и накапливать социальные связи. После социальных отношений пользователи становятся более липкими.

Во-вторых, это часть опыта песни K. По сравнению с другими приложениями для голосового чата, которые в основном ориентированы на бизнес, у нас есть специальная команда по аудио и видео, которая может удовлетворить многие потребности самостоятельно, так что третья сторона не будет бесполезной без нас; в Кроме того, мы постепенно установили набор субъективных и объективных механизмов оценки , которые могут подтолкнуть третью сторону к оптимизации фокуса, а затем мы можем объединить преимущества, чтобы гибко выбрать лучшего поставщика.

В последние несколько лет всем производителям RTC не хватало инвестиций в развлекательную караоке-сцену. Наше решение для сбора и рендеринга имеет преимущества в малой задержке возврата на ухо, совместимости с возвратом на ухо и выравнивании вокального аккомпанемента ; AEC и партитура пения также сделали свое дело. собственную оптимизацию, но по мере того, как каждая компания увеличивает ввод ресурсов, разрыв будет сокращаться. Как и эффект AEC, третья сторона в целом добилась больших успехов за последние два года, и в этом случае мы, наконец, внесем коррективы на основе общих субъективных и объективных результатов оценки.

Ступай на яму, расти, шаг за шагом

53e86737f09e20bdd2642a4829c158e3.jpeg

Основная техническая сложность — это требования к полному стеку, с которыми столкнутся небольшие команды. Поскольку я сам занимаюсь разработкой аудио- и видеотехники, большая часть опыта пения также основана на жестких алгоритмах, таких как звуковые эффекты, партитура пения, эффекты эхоподавления и так далее .

Для пения и озвучивания было трудно найти подходящую стороннюю техническую службу в начале 19. В то время я просил подработку помочь мне создать набор алгоритмов, но всегда были относительно большие проблемы с точностью эффекта.Больше половины потратил в свое время.Прожевал четыре-пять бумажек за месяц,и сделал относительно большую оптимизацию алгоритма подсчета очков,да и точность значительно улучшилась,что может примерно удовлетворить наши потребности в развлекательном пении.

Здесь тоже пробовали эхоподавление.В то время образовательная индустрия была в самом разгаре, и фокус производителей RTC был в основном в сфере конференций и образования, а спрос на нашу развлекательную караоке-продукцию был относительно низким . Самая очевидная проблема с эхоподавлением в то время заключалась в том, что подавление человеческого голоса было очень серьезным в сцене с двойным разговором, и человеческий голос был серьезно приглушен и даже терял некоторые слоги.

Такая проблема не особенно серьезна для сцены встречи, и ее достаточно, чтобы четко слышать, что говорит другая сторона, но в сцене караоке такое повреждение человеческого голоса приведет к очень плохому слух.Постарайтесь максимально сохранить детали вокала . В то время мы также пытались извлечь алгоритм AEC в WebRTC, а затем экранировали часть нелинейной обработки при пении, и выполняли только линейную обработку, а остаточное эхо подавлялось точным микшированием аккомпанемента.

bf92b16c7276b3eca85a575fdbac43bf.jpeg

Под общим влиянием различных производителей RTC в то время опыт этого решения в большинстве случаев будет намного лучше. Конечно, после отмены образования различные компании стали обращать внимание на рынок пан-развлечений, и опыт в этой сфере сделал качественный скачок.Сейчас мы также приобрели сторонний алгоритм эхоподавления ИИ.

В настоящее время наша аудио- и видеочасть относительно независима от бизнеса. Большинство итераций оптимизации могут быть не связаны с бизнесом. Эти части будут выпущены независимо, а затем выпущены вместе со сменой версий для бизнеса. Некоторые из них здесь связаны с оптимизацией проблем с опытом, упомянутых продуктом, а некоторые из них выполняются с помощью наших собственных всесторонних отзывов пользователей и статистической информации. Конечно, есть также некоторый контент для развития, связанный с бизнесом, такой как метод пения, некоторые сцены, требующие пения и озвучивания, и т. д. Эта часть будет оценивать спрос вместе с бизнесом и включать его в ход управления проектами бизнеса. .

6fecd3c0180e20d81218dec22aaac52d.jpeg

Публичность и технологии также являются направлением, которое мы стремимся улучшить в процессе разработки.Что более важно для удержания пользователей, так это сила продукта, а технологии также служат силе продукта.Нам еще предстоит пройти долгий путь в этой области.

Неизбежное снижение затрат и повышение эффективности

ae881229f8ae850aba1b22c82afea714.png

Когда речь идет о снижении затрат и повышении эффективности, на самом деле, как небольшая команда, это в основном состоит в том, чтобы в полной мере использовать свои преимущества и найти способы найти партнеров, чтобы компенсировать недостатки и направления, которые не могут быть выбраны. учитывать с точки зрения стоимости . Например, в сцене караоке в реальном времени работа по сбору, рендерингу и адаптации модели, которая оказывает большое влияние на пользовательский опыт и может быть выполнена нами, мы накапливаем с 2019 года; а также оптимизация передачи RTC, обработка AEC, установка сервера. Это создание набора лабораторных систем оценки и выбор лучшего поставщика услуг для удовлетворения спроса.

С точки зрения стоимости, самая большая стоимость караоке в реальном времени - это стоимость услуги RTC.В настоящее время мы интегрируем услуги RTC различных компаний с нашей собственной коллекцией и рендерингом , чтобы достичь самой низкой стоимости переключения, и в Интернете существует несколько RTC. при этом опыт тоже тот же. При такой схеме у нас будет больше преимуществ при торге, а также мы сможем перехватить инициативу в торге. Кроме того, механизм кэширования ресурсов CDN на стороне и оптимизация ресурсов RTC по запросу также могут частично снизить затраты.

03  Будь в настоящем, лови будущее

Пение — это человеческая природа, и общение — это тоже человеческая природа. В частности, у молодого поколения будет больше индивидуальных потребностей в самовыражении и социальной идентичности, у них будет больше чувства идентичности и энергии для формирования группы в виртуальном сообществе. расти из выемки пространства.

a5caf1143471a6c01bbe3c7802fe17a7.jpeg

Я думаю, что будущее направление развития караоке также должно быть в направлении облегчения социальных отношений. Например, более точная стратегия сопоставления и рекомендации позволяет темпераментным пользователям эффективно распознавать и накапливать отношения ; другим примером является автоматическая адаптация и автоматическая композиция на основе ИИ, позволяющая талантливым непрофессиональным пользователям эффективно создавать свои собственные избранные работы при низких затратах. Продемонстрируйте свой талант по низкой цене, для музыкальной области технология разделения вокала на основе искусственного интеллекта является относительно зрелой, и текущий эффект может в основном достигать практического уровня.

Другой пример — эхоподавление и шумоподавление на основе искусственного интеллекта, которые могут достигать высот, недоступных традиционным алгоритмам. Как и в случае с социальным полем песни K, где мы находимся, если мы сможем автоматически классифицировать и рекомендовать песни и пение пользователей на основе ИИ, это будет более значимое направление. Есть надежда, что будущее технологическое развитие сможет решить текущую проблему задержки хора в реальном времени, чтобы пользователи, находящиеся далеко, могли легко гармонизировать.

Наконец, я хотел бы поделиться тем, что я привнес на этот LiveVideoStackCon: в основном я рассказываю о ловушках, на которые я наступил в области аудио и видео за последние несколько лет, в основном на основе мобильных технологий Android/iOS; я также поделюсь K песни Некоторые специальные технические моменты в сцене; я также расскажу о том, как оптимизация аудио- и видеотехнологий становится индикатором, который боссы могут распознать, и о распространенных проблемах с глушением в сцене голосового чата.


*Источник статьи:

Дубан «Человек-паук: Через Вселенную».

853443aa48318dcf7bdcfac5f5c2f151.png

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131255322
Recomendado
Clasificación