Monday, September 8, 2014

The mind-map for Big Data Platform - The model of 9D

Data Mining
http://web.stanford.edu/class/cs246/

Data Visualization
http://datajournalismhandbook.org/1.0/en/understanding_data_7.html

Marketing
http://www.gartner.com/marketing/digital/research/data-driven/

Advertising
http://www.iab.net/data/

Strategy
http://www.mckinsey.com/insights/business_technology/three_keys_to_building_a_data_driven_strategy

Data Modeling
http://www.agiledata.org/essays/dataModeling101.html

Classical Data Structures
http://www.slideshare.net/omnidba/data-structures-and-algorithms-for-big-databases

Ask Bigger Questions
http://www.datasciencecentral.com/profiles/blogs/33-unusual-problems-that-can-be-solved-with-data-science

Find the insights
http://datajournalismhandbook.org/1.0/en/understanding_data_7.html

Apache Kafka
http://kafka.apache.org

Apache Hadoop
http://hadoop.apache.org

Processing Actor - Akka.io
http://akka.io/

Apache Phoenix
http://phoenix.apache.org/index.html

Apache Hive
https://hive.apache.org/
User Activity Tracking
http://www.impactbnd.com/blog/the-10-marketing-kpis-you-should-be-tracking
Machine Learning
https://www.coursera.org/course/ml Apache Spark
https://spark.apache.org
Apache Tajo
http://tajo.apache.org/
Algorithms
http://people.seas.harvard.edu/~minilek/cs229r/
Probabilistic Data Structures
http://highlyscalable.wordpress.com/2012/05/01/probabilistic-structures-web-analytics-data-mining/
Active Functor Theory
http://www.mc2ads.org
Selecting valuable KPI for dashboard
http://nvd3.org
SDK for Mobile Analytics
http://www.slideshare.net/openmarketing/driving-consumer-insight-with-mobile-analytics
JavaScript Tracking
http://developer.piwik.org/api-reference/tracking-api
Facebook Graph API
http://facebook4j.org/en/index.html
Twitter API
http://twitter4j.org/en/
Heatmap
http://www.patrick-wied.at/static/heatmapjs/
D3.js
http://biovisualize.github.io/d3visualization/
Ad-hoc query
http://stackoverflow.com/questions/2460954/what-is-ad-hoc-query
Apache Cassandra
http://cassandra.apache.org
User Profile Classification
http://wi.wu-wien.ac.at/home/mark/publications/ike07.pdf
Reactive System
http://www.reactivemanifesto.org/
Reactive Streams
http://www.reactive-streams.org/

Saturday, August 16, 2014

Big Data - from Simple Ideas to Advanced Concepts

Basic ideas:

Big Data - explained in a fun and easy way



5 V of Big Data
Basic Principles of Big Data System


More information at refer links:

Advanced concepts:

We, the human see data (structured), create new data (unstructured and structured) and the demand is finding the relationship inside new data. That's why big data was born !


How ?


Tuesday, July 29, 2014

Tại sao công nghệ AI deep learning không chỉ dành cho Facebook, Google, IBM, Netflix


Mục đích: Hiện thực 1 Java Web Service, nhằm đưa ra những thông tin hữu ích từ logs, có giá trị dựa trên những gì bạn thích hoặc tiềm năng trong tương lai, hoặc gây ra rủi ro nguy hiểm cao để mỗi cá nhân tự phòng tránh. (dành cho nhu cầu cá nhân mỗi người)




Implemented code:
Dùng Java 8 with Lambda
https://bitbucket.org/trieunt/rfx/src

1 vài open source tham khảo:
http://deeplearning4j.org/
http://jfuzzylogic.sourceforge.net/html/index.html
https://github.com/orientechnologies/orientdb/wiki/Graph-Database-Tinkerpop

Useful links:
Make suggestions based on what you actually like about your favorite information experience
http://gigaom.com/2014/07/29/robots-helped-inspire-deep-learning-and-might-become-its-killer-app/
http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/
The application of Deep Learning in Collaborative Filtering
Netflix Is 'Training' Its Recommendation System By Using Amazon's Cloud To Mimic The Human Brain
http://www.quora.com/Deep-Learning/Whats-the-most-effective-way-to-get-started-with-Deep-Learning
http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial
http://deeplearning.stanford.edu/wiki/index.php/Main_Page
http://www.socher.org/index.php/DeepLearningTutorial/DeepLearningTutorial

Practical case studies
http://danielnouri.org/notes/2014/01/10/using-deep-learning-to-listen-for-whales/
http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/
http://radar.oreilly.com/2014/07/how-to-build-and-run-your-first-deep-learning-network.html

Tuesday, July 22, 2014

Emerging Trends in Big Data Technologies

Emerging Trends in Big Data Technologies
  • Storm: Apache Storm is an open source distributed real-time computation system. Storm makes it easy to process streams of data, doing for real-time processing what Hadoop did for batch processing.
  • Spark: Spark is an in-memory data-processing platform that is compatible with Hadoop data sources but runs much faster than Hadoop MapReduce. It’s well suited for machine learning jobs, as well as interactive data queries, and is easier for many developers because it includes APIs in Scala, Python and Java.
  • Apache Hive: Apache Hive facilitates querying and managing large datasets residing in distributed storage. It also allows the map reduce programmers to plug in custom mappers and reducers.
  • Apache Tajo: Apache Tajo is a big data relational and distributed data warehouse system for Apache Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation, and ETL (extract-transform-load process) on large-data sets stored on HDFS (Hadoop Distributed File System) and other data sources.
  • Twitter'Summingbird
Full report: http://www.infoq.com/research/big-data-emerging-trends

Friday, July 11, 2014

Khoa học dữ liệu, triết học và bóng đá (How Big Data Helped Germany in the World Cup 2014)


Tóm tắt bằng Vietnamese như sau:
Sau thất bại (2 lần hạng 3 thế giới, 2 lần vào chung kết Euro) từ 2006 (cuộc cách mạng bóng đá Đức do Jürgen Klinsmann đề xuất), đội tuyển Đức đã kết hợp giữa khoa học và thể thao một cách chặt chẽ nhằm tìm kiếm  danh hiệu thứ 4 (vô địch World Cup 2014).
Theo như trợ lý huấn luyện Hansi Flick, trong 2 năm qua, các sinh viên ở truờng đại học thể thao Cologne đã phát triển một hệ thống gồm cơ sở dữ liệu về cầu thủ, cách sử dụng chiến thuật và cách đá, đi bóng của từng câu thủ.



Vì vậy, dữ liệu của 736 cầu thủ đá ỏ World Cup (gồm luôn tuyển Đức) đã đuợc số hóa để giúp ban huấn luyện đề ra từng chiến thuật cụ thể cho từng trận đấu ở giải kỳ này.
=> trận hòa Ghana chắc do thiếu data #_#

Câu hỏi: Với mỗi trận đấu, sẽ tồn tại ít nhất một cách để phá lối đá của đối phuơng và phát huy tối đa sức tấn công để ghi bàn ?
chờ đợi trân chung kết để xem điều này đúng hay sai :)


SAP data at HoffenheimThe data can be analysed in real-time by data experts - and training schedules can be adapted
NSA , a super analytic in football , is developed at Germany for this World Cup 2014
“The sports students in Cologne have been studying in great detail our opponent and put every play they’ve run, every newspaper article on them, and everything about them out there under the microscope and made all that data available to us,” 

Read more: http://www.dailystar.com.lb/Sports/Football/2014/Jul-08/263019-university-boffins-steer-german-tactics.ashx#ixzz379AoFIWj
(The Daily Star :: Lebanon News :: http://www.dailystar.com.lb) 


big data is about capturing the "moment". The German team was able to capture and analyze each and every moment about the Brazilian team including the passes they play, how they react upon pressure, and even every quote about them in newspapers. They were able to analyze hidden team behaviors and strategy information.
From https://www.linkedin.com/today/post/article/20140709143632-54591340-how-big-data-helped-germany-break-brazil-s-hearts-in-the-world-cup
Big Data is about capturing every single “moment” throughout the human life
https://www.linkedin.com/today/post/article/20140627113503-54591340-big-data-utopia

http://blogs.bridgei2i.com/2014/06/25/for-the-love-of-soccer-and-data-analytics/

Monday, June 9, 2014

Tìm kiếm các giải pháp công nghệ khí hậu (tài trợ từ InfoDev và World Bank)

Tóm tắt: Cuộc thi Chứng Minh Khái Niệm – Proof of Concept (PoC) do chương Trình Công Nghệ Khí Hậu InfoDev của Ngân Hàng Thế Giới (World Bank) phối hợp với Ngân Hàng Phát Triển Châu Á (ADB) được tổ chức tại Việt Nam dành cho các doanh nghiệp biến đổi khí hậu.

Với mục đích tìm kiếm và khuyến khích các đổi mới và các giải pháp công nghệ khí hậu nhằm giúp Việt Nam thích ứng với biến đổi khí hậu, giảm thiểu phát thải, đáp ứng nhu cầu năng lượng, tăng năng suất, duy trì khả năng cạnh tranh, và giảm thiểu sự phụ thuộc vào nhập khẩu nhiên liệu hóa thạch. cuộc thi PoC đặc biệt quan tâm đến những doanh nghiệp hoạt động trong các lĩnh vực:

• Hiệu quả năng lượng;
• Nhiên liệu sinh học và sinh khối;
• Nông nghiệp bền vững;
• Công nghệ thích ứng;
• Công nghệ vận chuyển:
• Công nghệ năng lượng tái tạo;
• Quản lý và lọc nước;
• Các ngành công nghệ khí hậu khác.

Khoản tài trợ của cuộc thi lên tới 1 tỷ đồng. Số tiền này được dùng cho việc phát triển, triển khai và/hoặc mở rộng một sản phẩm hay dịch vụ. Ngoài ra, 30 ứng viên xuất sắc nhất là các doanh nghiệp, dự án, nhóm nghiên sẽ được ưu tiên tiếp cận chương trình của Trung tâm sáng tạo khí hậu Việt Nam (CIC Việt Nam) và toàn bộ các dịch vụ tư vấn của chương trình (đào tạo, cố vấn, cơ sở vật chất và đầu tư).
more info từ Links:
http://www.twenty.vn/cong-dong/proof-concept-tim-kiem-cac-giai-phap-cong-nghe-khi-hau
http://www.vietnamcic.org/

Mình có vài ý tưởng từ framework Rfx, viết nháp ra như sau, bạn nào muốn làm thì mình có thể tư vấn giúp, (connect at https://www.facebook.com/tantrieuf31 )
chủ yếu tập trung chính:
• Nông nghiệp bền vững;
• Công nghệ thích ứng;

ý tưởng công nghệ:
http://www.mc2ads.com/2014/01/from-big-data-to-disaster-response.html
http://www.mc2ads.com/2013/12/palantir-big-data-technologies-tu-quy.html

Kiến trúc chính:
Giao diện (học hỏi thêm từ PALANTIR BIG DATA TECHNOLOGIES )



Thursday, May 29, 2014

Rfx và Wordpress: Smarter Content Editor with Reactive Data Mining

Wordpress là một trong công cụ mã nguồn mở (open source) phổ biến nhất thế giới cho việc làm content (media publishers).
content + Wordpress + customized theme + plugins = super cool media publisher

Rfx là một framework miễn phí cho việc xây dựng backend analytics và có những phản ứng thông minh để làm personalize nhu cầu thông tin của từng đối tuợng theo mô hình:
content + logs + data mining => smarter recommendation engine

Connecting the dots ?
Một editor cần đuợc cá nhân hóa với từng context (đang ở quán nhậu), rating món ăn, review. 
Nếu 1 user khác cùng gu (sở thích), hệ thống sẽ tự push content đến (Wordpress có web API cho việc làm mobile app khá dễ).

List vài ý tuởng ra, mục đích là wordpress nó thông minh hơn, tích hợp sâu Rfx với Wordpress để làm Rfx trở thành 1 công cụ data mining phổ biến như Wordpress.