本研究では,EDINET と XBRL の導入によってデジタルデータとして入手が可能に なった有価証券報告書の事業等のリスクを,TF-IDF 法によって単語の重みづけを行った ベクトルとして表現し,k 平均法によるクラスタリングを行った。先行研究は記載された リスクにもとづいて事業等のリスクを分類する研究であった。一方,類似したものをグルー プに分けるクラスタリングによれば,記載内容が類似する事業等のリスクをグループに分 けることができるので,対象会社全体の事業等のリスクの開示の傾向を把握することがで きる。分析の結果,銀行業,小売業,建設業,不動産業,情報・通信業では,事業等のリ スクの記載内容の類似度が高いことが明らかになった。こうした結果は先行研究のような 事業等のリスクの開示行動を分析する研究だけでなく,開示の有用性に関する研究に対し ても分析モデルの構築に役立つと期待できる。また,本研究で用いた自然言語処理と機械 学習の手法を非財務情報の分析に適用することで,定性的情報である非財務情報を定量的 に分析することが可能になる。