フォロー

響け!ユーフォニアムに刺激されて、トランペットとユーフォニアムのデュエットしてる音源を、機械学習で分離しようとしてるんだが、惜しいところまで行くけどなかなかうまくいかない。
トランペットは割と抽出できるんだけど、ユーフォの高音が音域的にトランペットの下の方と被ってるのが難しい模様

@lithium03 スペクトラムベースです?
データセットは分離音源を持っているのです?

@kkamiyama Wave-U-NetとWavenetベースの、波形直接のやつを試しています。ここのやつ参考にしてます。
jordipons.me/apps/end-to-end-m

学習ソースは、響け!ユーフォニアムのサントラにあった、トランペットとユーフォニアムの単独トラックと、追加でトランペットは
philharmonia.co.uk/explore/sou
のトランペットの音源を、
ユーフォニアムは
youtube.com/watch?v=VI94RvcHbo
youtube.com/watch?v=snBpWzQxav
youtube.com/watch?v=YiCuNWBQLU
このへんを

@lithium03 なるほど
ありがとうございます!
誤差の評価に音の不自然さみたいなのを入れると良い気がします
ただの勘です

@kkamiyama 確かに、じゃりじゃりした感じになってるので、波形のスムーズさを出すと良いかもしれません。
不自然さの評価がまた難しい予感

ログインして会話に参加
Mastodon

lithium03が管理する日本鯖です