副業で月10万円を稼いでいるヨスケが教えます！

どうもヨスケです。

ちまたではChatGPTをはじめ、

たくさんのAI関連情報であふれかえっておりますね。

そんな情報も「うまく使う人間が勝つ」。

この真理は変わらないでしょう。

今回は、副業でおススメな「音声文字起こし」作業を効率化するポイントとして、

音声認識を活用する方法をご紹介いたします。

■この記事で分かること
ココナラプラチナランクに到達したヨスケが、
月10万円を稼ぐためにやっているおススメの副業について
プログラミングを用いた仕事の効率化の一部をご紹介します！

副業は「文字起こし」がおススメ
1. クラウドソーシングサービスで依頼を受けよう
文字起こしは面倒、かつ低単価
副収入アップのカギは「AI・プログラミングで効率化」
イチから書き起こすよりも誤字脱字の修正の方が早い
2021年に登場した音声認識エンジン「Whisper」がヤバい
Whisperによる音声認識のサンプルソース
一気に文字起こしするプログラム作成
ChatGPTに協力を依頼！
1. 指示した仕様
2. サンプルコード　Whisperによる一括音声認識、Wordへの書き出し
最後に：今月の売り上げ
1. クラウドソーシングは誰でも稼ぐことができます！

副業は「文字起こし」がおススメ

ヨスケが副業でおススメなのは、

というか、実際にやっているのが、

動画・音声の文字起こしです。

■動画・音声の文字起こしとは
動画や音声中に人の発言内容をテキストに書き起こすこと。
書き起こし方にも「ケバ取り」「整文」「素起こし」など、
いくつかの手法がある。

動画をスマホで観れるようになって以降、

どこでも動画を観ていますよね。

動画に字幕をつけることや、

会議の議事録作成、

裁判の証拠用など、

文字起こしに対してのニーズが高まっています。

いろんなところで、音声データの文字起こしが必要です。

■動画・音声の文字起こしのニーズ
・動画への字幕つけ
・議事録作成
・セミナー要約、書籍出版
・裁判の証拠用

クラウドソーシングサービスで依頼を受けよう

文字起こしの依頼は

クラウドソーシングサービスを運営するサイトで受注できます。

ヨスケはココナラ、CrowdWorks 、クラウディアなど

複数のサイトに登録して利用しています。

文字起こしは面倒、かつ低単価

文字起こしはニーズが高い反面、

単価が上がりにくい仕事であることも事実です。

なかなか文字起こしサービスだけの副業で

月間3万円以上の収入を得ることが難しいところではあります。

■文字起こしのコスパの悪さ
・音声の時間よりも何倍も時間がかかる
・多数の文字起こしサービス出品者がおり、価格競争状態（低単価）
・タイピングも面倒

どれだけ効率的に音声を文字起こしできて、

どれだけのボリュームの依頼をこなすことができるのかで

収入が決まって来ます。

たとえば、仮に以下のようなイメージで、、、

1時間の音声文字起こしにかかる時間：5時間
月間で作業可能な時間：20時間
文字起こし報酬額（1時間分）：3,000円～

だいたい、月の収入で12,000円程度になります。

時給にすると600円。。。

スキマ時間に時給が発生するのはすごいことですが、

もう少しほしいところです。

副収入アップのカギは「AI・プログラミングで効率化」

音声の文字起こしは、

スキルがなくてもこなせば確実に収入が得られるため、

とてもおススメの副業ですが、

月間の稼ぎが上がってこないところに課題があります。

問題点は「文字起こしに時間がかかる」ところですね。

ここを効率化してあげると、

月間でこなせる仕事の量が増えますので、

収入が上がります。

そこでご紹介したいのは「AIによる音声認識」です。

ヨスケはこれで月の副収入が3万円を超えました。

現在は10万円を超えているのですが、

それはまた別の話で！

AI音声認識とは

AI音声認識は、音声ファイルの情報を信号処理して

テキストとして書き起こすものです。

現在、世界的ビッグテックのGoogleもMicrosoftもAmazonも

それ以外のIT企業もいろいろなAI技術の研究を進めており、

本当に日進月歩で技術革新が起こっています。

ChatGPTなんかもそうですね！

皆さん使っていますか？

AI音声認識による文字起こしのうれしさ

文字起こしのお仕事に

AI音声認識を使う最大にして唯一といっていい理由は、

「時間短縮」です。

イチから自分でタイピングして打ち込まなくても良いので

かなりの時間短縮になります。

そして、プログラム君は疲れない！

寝ている間もずっと書き起こしてくれます。

■AI音声認識の文字起こしのメリット
・自動で文字起こししてくれる
・寝ている間も休まず書き起こしてくれる

これを活用しない手はないですね！

「認識精度」に課題あり

もちろん、音声認識に「絶対」はありません。

音声認識エンジンの性能によっては

全然書き起こしてくれないこともあります。

特に、日本語は世界でも最も難しい言語の一つになるくらい、

あいまいな表現や多様な言い回しがあり、

音声認識の天敵になっています。

だから、文字起こしという仕事があるわけです。

イチから書き起こすよりも誤字脱字の修正の方が早い

精度が悪いのに、

それでも音声認識をおススメする理由はいくつかあります。

■音声認識による文字起こしをおススメする理由
・イチから書き起こす必要がない
・書き出されたテキストを見ながら音声を補完できること
・音声だけ聞いていても聞き取れなかったところも聞き取りやすくなる

間違っていても、

直しやすいし、時間の短縮になるわけです。

2021年に登場した音声認識エンジン「Whisper」がヤバい

音声認識エンジンはたくさんのテック企業が開発を進めています。

Google : Google Cloud Speech to Text

Microsoft:Azure　Cognitive Speech Services

Amazon:AWS Amazon Transcribe

アドバンストメディア:AmiVoice

株式会社オルツ：AI GIJIROKU

ヨスケは全部試してみましたが、

日本語用に使いやすかったのはAmiVoiceとAI GIJIROKUでした。

ただ、それも2022年9月まで。

あのChatGPTを手掛ける「OpenAI」が

満を持してリリースした高精度音声認識エンジン「Whisper」が

圧倒的に良かったので、それからはWhisper一本で作業しています。

つい最近、音声認識モデルの最新版「Large-v2」をリリースして

さらに精度を上げてきました。

Whisperによる音声認識のサンプルソース

もうほんとに簡単なので、絶対試してください。

ヨスケはPCのリソースは他の作業に使いたいので

Google Colab上のGPU環境で使っています。

無料でも動かせるので、ぜひ。

以下のコードを順番に実行すれば文字起こしてくれます。

pip install git+https://github.com/openai/whisper.git

import whisper

model = whisper.load_model("large-v2")

result = model.transcribe("/content/audiofile.mp3", language="ja")
print(result["text"])

細かい導入方法などは

Google Colabのドキュメントをご覧ください。

一気に文字起こしするプログラム作成

上記サンプルコードは

いろんな記事で紹介されていますので、いいのですが

副業でたくさんの依頼を受けると、

音声ファイルを大量に処理しないといけないので、

一気にWordファイルに書き出すプログラムを作りたくなりました。

ChatGPTに協力を依頼！

ネットで調べていても、

ほしいサンプルコードドンピシャが見つけられないので、

だったら作っちゃえー

ということで、

プログラムの初心者は最近GPT-4を搭載した

アシスタントのChatGPTちゃんに依頼。

もうね、

10分でできました！

もう、ググってサンプルコードを探す時代は終わりを告げて、

AIアシスタントにやりたいこと伝えて、

欲しい情報そのものを「生成してもらう」時代になりました。

指示した仕様

GPT-4さんに出した指示は以下のようなものです。

ヨスケ

Whisperによる文字起こし結果をWordファイルに書き出したいです。以下のプログラムを修正してください。実装環境はGoogle Colabです。

contentフォルダに複数の音声ファイルがあった場合、それぞれを音声認識してWordファイルに書き出すように修正できますか？

!pip install git+https://github.com/openai/whisper.git

import whisper
model = whisper.load_model("large-v2")
result = model.transcribe("/content/audio.mp3", verbose=True, language="ja")
print(result["text"])

そして、１，２回のやり取りを経て

コードが完成しました。

サンプルコード　Whisperによる一括音声認識、Wordへの書き出し

以下はコピーすればすぐに動きます。

Google Colabのcontentフォルダに音声ファイルをアップロードして

実行してみてください。複数ファイル可です。

pip install git+https://github.com/openai/whisper.git

!pip install python-docx

import os
import whisper
from docx import Document

model = whisper.load_model("large-v2")

audio_files = [f for f in os.listdir('/content/') if f.endswith('.mp3')]

# Process each audio file
for audio_file in audio_files:
    # Transcribe the audio file
    result = model.transcribe(os.path.join("/content", audio_file), verbose=True, language="ja")
    transcription_text = result["text"]
    print(f"Transcription for {audio_file}:")
    #print(transcription_text)


    # Create a new Word document
    doc = Document()


    # Add the transcribed text to the Word document
    doc.add_paragraph(transcription_text)


    # Save the document as a Word file with the same name as the audio file
    docx_filename = os.path.splitext(audio_file)[0] + ".docx"
    doc.save(os.path.join("/content", docx_filename))

30ファイルほど同時に音声認識してみましたが、

全て音声ファイルと同じ名前のWordファイルに

文字起こし結果が書き込まれていました。