本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)
おまたせしました
この度、ついにこの記事を完成させることができました。これは私が数年前からずっと書きたいと思っていた、ウェブのアクセスログに対する、機械学習を使った異常検知の実例です。私は事あるごとに(※1)「情報セキュリティ分野でもデータサイエンスの技術は非常に重要だ」と繰り返していますが、この記事の内容はまさにその1つの証となると思います。この記事で示される内容を見れば、「うわ、機械学習、マジでヤバイい(語彙力)んだな...」となるでしょう。以下に心当たりのあるセキュリティエンジニアはぜひ読んで、そして実践してみてください。
- 機械学習に興味はあるものの、どこから手を付ければよいのかイメージがわかない
- 本当にAIやデータサイエンス、機械学習がセキュリティの分野で役に立つのか、確信がもてない
- データサイエンスや機械学習は難しそうだと思っている
- ログ解析において、grepや単純な統計処理よりも、さらに上のレベルに行きたい
- 大量のデータからインテリジェンスを引き出す手法を身につけたい
- AIに大量のログを解析するお仕事をさせて、自分はのんびりしたい
- やたらコア数の多いCPUでマシンを組んでしまったが、実のところ持て余している
今回の異常検知は、セキュリティ×機械学習の入門にぴったりの内容です。これまで、「誰でもアクセスが可能な、ウェブサーバのアクセスログのサンプルデータはないだろうか?」と何度も探していたのですが、意外に見つかりませんでした。今回ついにそれが見つかったので、こうして無事に記事にすることができました。