203 Hours Tamil Speech Dataset – Conversation & Monologue Audio

Tamil conversation dataset

real-world Tamil speech

transcribed Tamil audio

speech recognition in Tamil

multilingual audio training

Tamil ASR data

Tamil voice corpus

Tamil monologue dataset

smartphone Tamil dataset

speech recognition Tamil dataset

203 hours of real-world Tamil speech data featuring both casual conversations and scripted monologues. All audio was recorded from native Tamil speakers across various regions, reflecting real-world linguistic and acoustic diversity. Each sample is manually transcribed and annotated with speaker ID, gender, and other metadata, making it highly suitable for automatic speech recognition (ASR), speech synthesis (TTS), speaker identification, and natural language processing (NLP) applications. The dataset has been validated by leading AI companies and is particularly valuable for training robust AI models for underrepresented languages. All data collection, processing, and usage comply strictly with global data privacy laws including GDPR, CCPA, and PIPL, ensuring legal and ethical use.

This is a paid datasets for commercial use, research purpose and more. Licensed ready made datasets help jump-start AI projects.

Sample

Audio
தமிழ்நாட்டு வரலாற்றில், இது தான் முதல் முறை ஒரு அரசாங்கம் கடனை வாங்கி வட்டி கட்டுது.
Audio
உறுப்பினர் சொல்ற கருத்து, நல்ல கருத்து. ஏற்கனவே எங்களுக்கு ஒரு idea இருஞ்சு. என்ன சொல்ல மறந்துட்டாரு? இதே கருத்தை நான் ரெண்டாயிரத்தி பதினேழில் கூறினேன்.
Audio
ஒரே ஒரு நிமிஷம் பதினஞ்சாவது நிதிக்குழு இந்த அதிமுகவின்
Audio
வீட்டிக்குள்ள பூட்டி வச்சுருந்திங்கன்னா, இது யாருங்க சொத்து? மக்கள் சொத்து இல்லையா? எதற்காக இது செய்யப்பட்டது? சட்டமன்றத்துல சொல்றிங்க மாண்புமிகு
Audio
யாருக்கு வெற்றி?

203 Hours Tamil Speech Dataset – Conversation & Monologue Audio

Tamil conversation dataset real-world Tamil speech transcribed Tamil audio speech recognition in Tamil multilingual audio training Tamil ASR data Tamil voice corpus Tamil monologue dataset smartphone Tamil dataset speech recognition Tamil dataset

Current Project Maturity

Tamil conversation dataset

real-world Tamil speech

transcribed Tamil audio

speech recognition in Tamil

multilingual audio training

Tamil ASR data

Tamil voice corpus

Tamil monologue dataset

smartphone Tamil dataset

speech recognition Tamil dataset